FisherAI

DeepSeek 模型发布和重大事件时间线一览

这里整理一下 DeepSeek 重大里程碑事件，部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观，我做了一个网页版，大家可自行取用。 2023年7月：DeepSeek 公司成立核心功能：致力于 AGI 功能介绍：由知名量化资管巨头幻方量化创立，其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月：开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型核心功能：DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。功能介绍：DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型，它旨在提升代码编写的效率和质量，MIT 许可并允许商业用途。项目地址：https://github.com/deepseek-ai/DeepSeek-LLM 论文地址：https://arxiv.org/abs/2401.02954 论文摘要本文深入研究了大规模语言模型（LLMs）的扩展规律，并针对两种常用的开源配置 7B 和 67B 模型，提出了独特的发现，以促进模型扩展。研究团队基于长期主义视角，推出了开源语言模型项目 DeepSeek LLM。为了支持预训练，他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调（SFT）和直接偏好优化（DPO），最终得到了 DeepSeek Chat 模型。评估结果表明，DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B，尤其在代码、数学和推理领域表现突出。此外，开放性评估显示，DeepSeek LLM 67B Chat 的性能优于 GPT-3....

用 Unsloth 在本地训练你自己的 R1 推理模型 • Unsloth

本文介绍了 Unsloth 的一项新功能，该功能使用户能够在本地训练自己的 R1 推理模型。这项创新利用 Group Relative Policy Optimization (GRPO) 算法，显著降低了训练推理模型所需的 VRAM，使得在消费级 GPU 上，如仅需 7GB VRAM 的情况下，复现 DeepSeek R1-Zero 的 “顿悟时刻” 成为可能。Unsloth 旨在让更多开发者能够便捷地将标准模型转化为具备完整推理能力的模型，并应用于定制化奖励模型和自动生成推理过程等多种场景。此外，Unsloth 还集成了 vLLM，进一步提升了吞吐量并降低了 VRAM 消耗，为用户提供更高效的微调和推理体验。 GRPO 算法引入 Unsloth： Unsloth 基于 DeepSeek R1 的研究，在自身平台中引入了 GRPO 算法，使用户能够训练模型自主学习分配更多思考时间，无需人工反馈。 VRAM 效率提升： Unsloth 优化了 GRPO 流程，使其 VRAM 占用比 Hugging Face + FA2 减少 80%，仅需 7GB VRAM 即可在 Qwen2.5 (1.5B) 模型上复现 R1-Zero 的 “顿悟时刻”。广泛的模型兼容性： Unsloth 支持将参数量高达 150 亿的模型（如 Llama 3.1 (8B), Phi-4 (14B), Mistral (7B), Qwen2....

【科普】人工智能中的“量化”，到底是什么？

在人工智能蓬勃发展的今天，深度学习模型已经在图像识别、自然语言处理和自动驾驶等领域取得了令人瞩目的成绩。然而，随着模型规模不断增大，如何在保证模型性能的同时降低计算资源和能耗，成为了研究者和工程师们面临的重要课题。量化（Quantization）技术正是在这一背景下应运而生，并在实际应用中发挥了巨大作用。本文将带你深入了解人工智能中的量化技术，探讨它的原理、优点以及所面临的挑战。什么是量化？量化，顾名思义，就是将连续的数值转换为有限的、离散的数值集合。在计算机系统中，数据通常以二进制形式存储和处理。传统的深度学习模型中，神经网络的参数（如权重和激活值）通常使用 32 位浮点数（float32）表示，这样既能保证计算精度，也便于训练和优化。但在模型推理（Inference）阶段，对于一些对精度要求没有那么高的场景，我们可以用更低位数的数据来表示这些参数，这就是量化技术的基本思想。 1. 高精度浮点数数据类型位宽符号位指数位尾数位存储占用主要特点 FP64（双精度） 64 1 11 52 8 字节超高精度，适用于科学计算，存储和计算成本高 FP32（单精度） 32 1 8 23 4 字节计算精度和存储占用均衡，深度学习主流格式 FP16（半精度） 16 1 5 10 2 字节存储占用更低，适用于加速推理和混合精度训练 bfloat16 16 1 8 7 2 字节与 FP32 共享相同指数位，训练稳定性更强 2. 低精度整数数据类型位宽符号位数值范围存储占用主要应用 int8 8 ✅ -128 ~ 127 1 字节量化神经网络，提高推理速度，降低功耗 uint8 8 ❌ 0 ~ 255 1 字节适用于正数数据的量化，提高数值范围 int16 16 ✅ -32,768 ~ 32,767 2 字节需要更大范围整数时使用，深度学习较少用 int4 4 ✅ -8 ~ 7 0....

【科普】人工智能中的“知识蒸馏”，到底是什么？

随着 DeepSeek R1 的爆火，知识蒸馏这一人工智能中常用的技术进入大众视野。本篇面向对人工智能和机器学习感兴趣的初学者的科普性文章，主题聚焦于当前深度学习领域中被广泛应用的「知识蒸馏（Knowledge Distillation）」技术，希望能帮助读者快速了解它的概念、作用以及应用场景。什么是知识蒸馏？在深度学习的发展过程中，模型的规模（参数量）越来越大，性能也随之提升。然而，大模型在带来卓越性能的同时，往往也伴随着体积庞大、推理速度较慢、对硬件资源要求较高等问题。为了让深度学习模型在更广泛的场景中应用，人们提出了多种模型压缩技术，而「知识蒸馏」就是其中的一种。知识蒸馏最早由 Hinton 等人在 2015 年提出（Hinton 被誉为AI 教父，同时获得了图灵奖和诺贝尔奖，也是 OpenAI 前首席科学家兼创始人 Ilya Sutskeve 的导师），其核心思想是：将一个性能很强但体积庞大的「教师模型（Teacher Model）」所学习到的“知识”提炼出来，再教给一个较小且更轻量的「学生模型（Student Model）」，使得学生模型既能保持较好的性能，又显著降低模型大小和推理成本。可以把知识蒸馏比作一位优秀教师将自己的知识精华传授给学生的过程。教师模型经过大量数据的训练，具备了很强的表达能力和预测精度，但它通常拥有成百上千亿的参数，体积庞大且计算消耗高。而学生模型则采用简化的网络结构，虽然参数较少，但通过“模仿”教师模型的行为，能够达到相近的效果，从而大幅降低计算资源的需求。传统的教学方式是直接告诉学徒“标准答案”（硬标签，Hard Label），例如，告诉他“这张图片是猫”、“这句话是肯定的”。但你作为经验丰富的老师，知道仅仅知道“答案”是不够的，更重要的是理解“为什么是这个答案”以及“其他可能的答案是什么”。知识蒸馏就像一种更高级的教学方式。它不仅仅传递“标准答案”，更重要的是传递老师模型在学习过程中获得的**“软标签 (Soft Label)”**，也就是模型对各种可能性的“思考”和“概率分布”。举个例子：假设我们训练了一个强大的图像识别模型（教师模型）来识别猫和狗。当给它一张猫的图片时，教师模型可能不会简单地输出“猫”这个答案，而是会给出这样的概率分布：猫： 95% 狗： 4% 其他动物： 1% 这个概率分布就包含了丰富的信息：高概率的“猫”：这是正确答案，表示模型高度确信这张图片是猫。较低概率的“狗”：表示模型也考虑过“狗”的可能性，但认为可能性较低。极低概率的“其他动物”：表示模型几乎排除了其他动物的可能性。这些概率分布，就是“软标签”。它比仅仅给出“猫”这个“硬标签”包含了更多的信息，体现了教师模型更深层次的理解和判断。简单来说，知识蒸馏的过程包括：训练教师模型：首先，我们训练一个强大的、性能优越的模型作为教师模型。这个模型通常体积较大、参数较多，能够学习到丰富的知识。生成软标签：教师模型不仅给出最终的分类结果，还能输出一个反映各类别概率分布的“软标签”。这些软标签揭示了类别之间的细微关系，比传统的硬标签（例如 0 与 1）包含更多信息。训练学生模型：利用相同的数据，同时使用教师模型输出的软标签和原始的硬标签，训练出一个结构轻巧但性能优秀的学生模型。模仿学习：学生模型通过模仿教师模型的“思考方式”（软标签），学习到教师模型更深层次的知识和泛化能力。知识蒸馏的原理软标签与温度参数在传统的分类任务中，模型输出经过 softmax 层后，会将每个类别的得分转化为概率。知识蒸馏中，通过引入一个温度参数 T 来调整 softmax 的输出分布。当温度 T 较高时，输出分布会变得更加平滑，弱化“自信”预测，使得学生模型能够捕捉到教师模型对各类别之间相似性的信息。这就好比老师在授课时适当放慢节奏，让学生更容易理解各知识点之间的联系。...

介绍一下 OpenAI Deep Research

OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能，名为 Deep Research。这项功能旨在作为一个智能代理，通过推理能力综合大量的在线信息，并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作，极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型，并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解，最终朝着实现通用人工智能 (AGI) 的目标迈进。关键细节可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出，Plus 和 Team 用户将在一个月后获得访问权限。核心能力: Deep Research 能够根据用户提出的问题，自主地在互联网上查找、分析和综合数百个在线资源，生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件，并根据遇到的信息动态调整研究方向。技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动，该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似，使用了强化学习，使其具备强大的推理能力和工具使用能力（如浏览器和 Python 工具）。应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者，以及需要对汽车、家电和家具等产品进行深入研究的消费者。输出特点: Deep Research 的输出结果是完全可追溯的，包含清晰的引用和思维过程总结，方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中，驱动 Deep Research 的模型取得了 26....

幻方量化、DeepSeek 与创始人梁文锋

2025年 1 月 20 号 DeepSeek 因开源了 o1 级别的深度推理模型 DeepSeek-R1 而在全球爆火，同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首，甚至一度让英伟达的股价暴跌 17%，核心原因有两点：模型权重和技术细节完全公开，可复现； R1 的能力水平与 OpenAI 的 o1 相媲美，但通过创新算法和优化训练流程其成本仅为o1的3%-5%，训练成本仅为560万美元。 DeepSeek R1 的发布引爆了硅谷，在其发布一周后，微软云 Azure、亚马逊云 AWS、NVIDIA NIM、HuggingFace、Ceberus、Groq、Perplexity、Cursor、Windsurf、Krea 等各云厂商和 AI 产品陆续部署或接入 DeepSeek R1 和 V3 模型。更引来一众大佬的点评，有的大为赞赏，有的阴阳怪气，如 OpenAI CEO Sam Altman 表示"DeepSeek 的 R1 模型令人印象深刻，尤其考虑到其定价和性能表现。我们显然会推出更优秀的模型，而且看到新的竞争者加入也真的令人鼓舞！我们将很快发布一些新成果。"，果然在 2025年1 月 31 号 OpenAI o3-mini 发布了。 OpenAI 高级研究副总裁 Mark Chen 表示“DeepSeek R1 论文中的发现和 o1有着相似的核心思想”。 Anthropic CEO Dario Amodei 发布长文表示“DeepSeek 的技术进步，实际上是在预期的 AI 成本降低趋势之内，而非颠覆性的突破。尽管中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展，但这非但没有削弱，反而更加强调了美国对华芯片出口管制的重要性”。 Groq 联合创始人兼 CEO Jonathan Ross 表示：“DeepSeek 的出现被认为是 AI 领域的 “Sputnik 2....

DeepSeek-R1 的训练过程是怎样的？• Epoch AI

本文由 Epoch AI 官方发布，主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价，并对围绕其训练成本的争议进行了分析。文章的核心观点包括： DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3，后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的，并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来，RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当，但价格却显著低于 o1，使其在性价比上更具优势。尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室，但其模型以接近边际成本的价格提供服务，对用户来说更具吸引力。关键细节架构： DeepSeek-R1 的架构与 DeepSeek v3 完全相同，采用稀疏混合专家模型 (MoE)，总参数量为 6710 亿，但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制，以降低 KV 缓存大小，同时保持性能。预训练 (DeepSeek v3)： DeepSeek v3 的预训练使用了混合精度 FP8，在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....

介绍一下 OpenAI o3-mini

2025年1月31日 OpenAI 推出了 o3-mini 模型，这是 OpenAI 推理系列中最新且最具成本效益的模型，现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的预告中首次亮相，它强大而快速，突破了小型模型的能力极限，在科学、数学和编程等 STEM 领域表现尤为出色，同时还保持了 OpenAI o1-mini 的低成本和低延迟。开发者支持支持函数调用、结构化输出和开发者消息支持流式传输支持低、中、高三种推理强度选项不支持视觉功能，对于视觉推理任务仍然需要使用 o1 向 API 使用等级 3-5 的开发者开放可用性 ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini，企业用户将在一周后获得访问权限。 Plus 和 Team 用户的消息配额从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。而 Pro 用户可以无限制使用。免费用户也可使用 o3-mini ，但需要在消息编辑框中选择“Reason”按钮。 o3-mini 支持搜索功能 o1 是更通用的知识推理模型，而 o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。在 ChatGPT 中，o3-mini 使用中等推理强度，以平衡速度和准确性。所有付费用户还可以在模型选择器中选择 o3-mini-high，这是一个更高智能的版本，但生成响应所需的时间稍长。能力水平与 OpenAI o1 类似，OpenAI o3-mini 针对 STEM 推理进行了优化。在低推理需求下，OpenAI o3-mini 的表现与 OpenAI o1-mini 相当。在中等推理强度下，o3-mini 在数学、编程和科学方面的表现与 o1 持平，同时响应速度更快。在高推理需求下，o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。原文探索更具性价比的推理能力我们很高兴地宣布推出 OpenAI o3-mini，这是我们推理系列中最新且最具成本效益的模型，现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的预告中首次亮相，它强大而快速，突破了小型模型的能力极限，在科学、数学和编程等 STEM 领域表现尤为出色，同时还保持了 OpenAI o1-mini 的低成本和低延迟。...

强化学习升温，白宫发布 AI 新政，DeepSeek 开源模型引热议：AI 未来走向何方？• Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章，主要探讨了近期 AI 领域的几个重要趋势和进展，涵盖了中国在生成式 AI 领域的快速发展、开源模型的影响、强化学习在提升语言模型推理能力方面的作用、AI 智能体在计算机应用中的兴起，以及美国 AI 政策的新动向和利用合成数据进行模型微调的优化方法。文章的核心论点包括：中国 AI 追赶： DeepSeek 发布的 DeepSeek-R1 模型，在基准测试中性能与 OpenAI 的 o1 相当，并以 MIT 许可证开源发布。 DeepSeek-R1 的发布引发市场对中国 AI 进步的关注，甚至导致 Nvidia 等美国科技公司股价短暂下跌 (“DeepSeek selloff”)。中国的 Qwen、Kimi、InternVL 等模型也显示出中国在生成式 AI 领域的快速发展。开源模型对于 AI 供应链至关重要，美国若限制开源，可能导致中国在这一领域占据主导地位。开源模型商品化： DeepSeek R1 的 token 价格远低于 OpenAI 的 o1 (DeepSeek R1 为 $2.19 / 百万 tokens，o1 为 $60 / 百万 tokens)，价格差异近 30 倍。训练基础模型并提供 API 访问的商业模式面临挑战，而基于基础模型构建应用则有巨大的商业机会。算法创新降低成本： DeepSeek 团队通过算法优化，在性能相对较弱的 H800 GPU 上训练出了高性能模型，计算成本低于 $600 万美元。即使计算成本降低，对智能和算力的需求长期来看依然巨大。强化学习提升推理：...

关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大，从 1 月 20 号开源到现在已经一周多了，国内外社交媒体上仍然在讨论，热度不减，同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首，离谱的是甚至让英伟达的股价暴跌了 17%，原因是 R1 的能力水平与 OpenAI 的 o1 相媲美，但成本仅为o1的3%-5%，训练成本仅为560万美元。投资者担心，DeepSeek的突破可能会减少对英伟达高端GPU的需求，从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论（酸一下），可见其影响力之大。本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是，尽管中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展，但这非但没有削弱，反而更加强调了美国对华芯片出口管制的重要性。作者认为，出口管制是确保民主国家在 AI 发展中保持领先地位，并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步，实际上是在预期的 AI 成本降低趋势之内，而非颠覆性的突破，因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展： DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型，在某些任务上性能接近美国最先进的模型，且训练成本更低，这主要归功于其在工程效率上的创新，例如改进了 Key-Value cache 管理和 mixture of experts 方法。然而，DeepSeek-V3 的性能仍落后于某些美国模型（如 Claude 3.5 Sonnet），且其成本降低幅度与 AI 领域正常的成本下降趋势（约每年 4 倍）基本一致，并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习（RL）训练阶段，类似于 OpenAI 的 o1 模型，表明多家公司在推理模型方面都取得了进展，但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态：理解 AI 发展需要关注三个动态。 Scaling laws，即模型训练规模越大，性能越好。 Shifting the curve，指算法和硬件的进步不断提高训练效率，降低成本。作者估计，目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm，指训练范式的转变，例如从预训练模型到使用强化学习训练推理模型，这会带来新的扩展机会和性能提升。出口管制的重要性：尽管 AI 模型训练成本在降低，但为了追求更强大的 AI，总体的研发投入仍在持续增加。作者预测，到 2026-2027 年，实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。出口管制是阻止中国获得大量先进芯片，从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中，中国可能集中资源发展军事 AI，从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”，即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据： DeepSeek 拥有相当数量的芯片（约 5 万片 Hopper 架构芯片），因此能够训练出高性能模型并不意外。出口管制的目的不是阻止中国获得少量芯片，而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型（包括 H100、H800 和 H20）表明，出口管制在一定程度上是有效的，中国可能通过走私和利用管制漏洞获取部分芯片，但也面临着获取最先进芯片和大规模芯片的限制。加强和完善出口管制，仍然是阻止中国在 AI 领域取得决定性优势的关键。原文几周前，我撰文指出，美国应该对出口到中国的芯片实施更严格的管制。此后，中国的人工智能公司 DeepSeek 设法在某些方面，至少在某些特定基准测试上，在性能上逼近了美国最先进的 AI 模型，而且成本更低。我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反，我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上，我认为这些发布使得出口管制政策比一周前更加至关重要2。出口管制的一个重要作用是：确保民主国家在 AI 发展中保持领先地位。需要明确的是，出口管制不是为了逃避美国和中国之间的竞争。最终，如果想要在竞争中获胜，美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是，我们不应该在不必要的情况下，将技术优势拱手让给中国共产党。 AI 发展的三个关键动态在阐述我的政策观点之前，我想先描述 AI 系统的三个基本动态，理解这些动态至关重要：缩放定律 (Scaling laws)。我和我的联合创始人在 OpenAI 工作时，是最早记录 AI 这一特性的：在所有条件相同的情况下，扩大 AI 系统的训练规模，通常会在各种认知任务上带来更平滑、更好的结果。例如，一个价值 100 万美元的模型可能解决 20% 的重要编码任务，一个价值 1000 万美元的模型可能解决 40%，一个价值 1 亿美元的模型可能解决 60%，以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此，各公司都在大力投资训练这些模型。曲线的改变 (Shifting the curve)。该领域不断涌现出各种各样的创新想法，从而提高效率：例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ，或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会改变缩放曲线：如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM)，那么你就可以用 500 万美元而不是 1000 万美元的成本，在编码任务上获得 40% 的性能；或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM：小的 (约 1....