Deep Research 与知识价值 • Ben Thompson

本文由 Stratechery 的作者 Ben Thompson 撰写,OpenAI 的 Deep Research 是一项新的 AI 功能,它标志着朝着通用人工智能(AGI)迈出的重要一步。Deep Research 能够独立执行复杂的研究任务,在短时间内完成人类研究分析师需要数小时才能完成的工作。这项技术的核心价值在于其能够综合网络上的大量信息,为用户提供深入的报告,从而极大地提升了知识获取和研究效率。然而,Deep Research 也揭示了互联网信息的局限性,尤其是在处理非公开或专业领域知识时,它可能会产生不完整甚至错误的报告,突显了在信息过载时代,高质量、非公开知识的价值日益凸显。 Deep Research 的功能与特点 高效的研究能力: Deep Research 可以在几十分钟内完成人类研究人员数小时的工作,显著提升研究效率。 强大的信息综合能力: 它能够搜索、解释和分析互联网上大量的文本、图像和 PDF 文件,并根据遇到的信息进行调整,最终生成综合性的研究报告。 基于 o3 模型优化版本: Deep Research 由 OpenAI 即将推出的 o3 模型的优化版本驱动,该版本专为网络浏览和数据分析而设计。 经济价值: 作者以每月 200 美元的价格体验了 Deep Research,认为其在某些应用场景下具有很高的经济价值,例如为采访准备背景资料,或快速了解复杂议题。 Deep Research 的应用案例 苹果公司财报分析: 作者使用 Deep Research 分析了 苹果公司 的最新财报,并将其与自己之前的分析进行对比,结果表明 Deep Research 能够理解并整合作者的分析风格和观点,生成有价值的报告。 ServiceNow 公司 CEO 采访准备: 作者利用 Deep Research 快速了解了 ServiceNow 公司 及其 CEO Bill McDermott 的背景信息,为采访准备节省了大量时间,并获得了有用的起始信息。 医疗问题研究: Deep Research 在一个朋友的复杂医疗问题研究中,快速识别出了一个潜在的关键问题,这显示了其在专业领域研究方面的潜力。 行业分析的局限性: 在一个行业分析案例中,Deep Research 报告遗漏了一个重要的行业参与者,揭示了其在处理非公开或难以获取的网络信息时的局限性,强调了非公开知识的价值。 Deep Research 对知识价值的影响 新闻价值的启示: 互联网时代新闻的经济价值降低,反映了信息过载和免费传播的挑战。Deep Research 的出现进一步加剧了信息过载,但也突显了高质量、独特知识的稀缺性和价值。 秘密和非公开信息的价值: Deep Research 的局限性在于其无法获取非公开信息,这使得那些未公开的数据和知识变得更有价值。例如,亚马逊 AWS 在早期阶段的财务数据未公开,直到后来才披露,其披露引发了市场对 亚马逊 价值的重新评估,也引发了竞争对手的追赶。 预测市场的潜力: 为了应对信息透明度提高和秘密信息价值上升的趋势,预测市场可能变得更加重要。预测市场能够通过价格信号来传播知识,为获取和传播非公开信息提供经济激励。 AI 的双重作用: AI 既可能加剧互联网信息污染,也可能是解决信息过载和甄别高质量信息的关键。Deep Research 这样的工具,在提升信息获取效率的同时,也促使人们重新思考知识的价值和获取方式。 Deep Research 的影响与未来展望 生产力提升: Deep Research 能够显著提升个人和组织的生产力,尤其是在研究和知识工作领域。 对研究人员的潜在影响: Deep Research 可能会对传统研究人员的就业市场产生影响,因为它可以自动化一部分研究工作。 对下一代分析师的挑战: 过度依赖 Deep Research 可能会使下一代分析师失去在信息搜索和筛选过程中学习和积累知识的机会。 秘密和摩擦的价值: 在 AI 时代,秘密和摩擦(即信息获取的难度)可能成为一种有意的价值保护机制,用于保护和利用独特的知识资产。 持续发展: Deep Research 仍处于早期阶段,未来将不断发展和完善,其能力和应用场景也将持续扩展。 原文 “你什么时候感觉到通用人工智能 (AGI) 了?”...

February 13, 2025 · 3 min · fisherdaddy

三个观察 • Sam Altman

本文是 OpenAI 的联合创始人兼 CEO Sam Altman 在今早刚发表的一篇文章,核心观点是,人工通用智能 (AGI) 的发展正快速推进,预示着社会和经济将发生巨大变革。Altman 认为, AGI 不仅仅是又一项技术工具,而是一个划时代的转折点,它将极大地提升人类的生产力,并有可能解决许多全球性难题。 AGI 的定义与愿景: AGI 被定义为一种能够在多个领域以人类水平解决复杂问题的系统。AGI 是人类不断进步的阶梯上又一个工具,但这次有所不同,它将带来惊人的经济增长,并有望实现治愈疾病、增加休闲时间、充分发挥创造潜能等愿景。 AI 发展的三个经济学观察: 智能与资源成对数关系: AI 模型的智能水平大致与训练和运行它所使用的资源 (计算资源、数据、推理计算) 的对数成正比。这意味着持续投入资源可以持续且可预测地提升 AI 智能。 AI 使用成本快速下降: AI 的使用成本大约每 12 个月下降 10 倍。例如, GPT-4 的 token 成本从 2023 年初到 2024 年中发布的 GPT-4o 下降了约 150 倍。这种成本下降速度远超摩尔定律。 智能线性增长的社会经济价值超指数级增长: 线性增长的智能所带来的社会经济价值呈超指数级增长。因此,对 AI 的指数级增长投资在可预见的未来不会停止。 AI 智能体 (AI agents) 的出现: AI 智能体,例如软件工程智能体,将逐渐普及,并像虚拟同事一样工作。它们能够完成资深软件工程师在数天内完成的大部分任务,尽管需要人类的监督和指导,并且在某些方面表现出色,在另一些方面则可能表现不佳。 AGI 对社会和经济的长期影响: AGI 可能会像晶体管一样渗透到经济的各个角落,广泛分布其收益,并深刻改变人们的生活。虽然短期内生活变化不大,但长期来看,社会和经济将发生巨大变革。 个人能力提升与价值重塑: AGI 将极大地提升个人能力,使个人能够产生比以往更大的影响力。意志力、目标明确性和适应不断变化的世界的能力将变得极其重要。 AGI 影响的不均衡性: AGI 对不同行业的影响程度不同,科学进步可能会加速,某些商品的价格将大幅下降,而奢侈品和稀缺资源的价格可能会上涨。 AGI 的社会融合与安全: 作者强调,需要社会各界共同思考如何将 AGI 融入社会, 原文 我们的使命是确保通用人工智能 (AGI) 惠及全人类。...

February 10, 2025 · 1 min · fisherdaddy

DeepSeek R1 本地部署的硬件需求与实战指南

最近很多朋友都咨询我怎么在自己的电脑上部署 deepseek r1,我很好奇为啥大家都要在自己 PC 上部署模型,而不是直接使用 DeepSeek 官网提供的网页或 app 版本,有的人告诉我是因为好奇,有的人是为了蹭一蹭热点,有的人说是为了显得牛逼,有的人说 DeepSeek 官网不稳定等等,反正各有各的原因。但我觉得对于个人而言,如果不是因为隐私或机密数据不能对外共享,其实使用本地部署的模型意义不大,而本地PC 能部署的模型参数很小,只有 1.5B、7B、8B、14B、32B、70B 这几个蒸馏版本,能力和满血版 deepseek-r1 671B 的模型能力相差甚远。但鉴于这些朋友不是从事 AI 相关工作,我都会给每个人科普一下以上这些信息,并列出 DeepSeek-R1 论文中给的各个模型的对比评测结果,最后给出一些本地部署蒸馏的小模型的指南。在这里我也把整理的内容分享给大家,有需要可自取。 评测结果 满血版的 deepseek-r1 671B 的模型评测结果 从上面结果可以看出来,DeepSeek-R1 的能力水平和 OpenAI 的 openai-o1-1217 版本能力相当,甚至有些评测集上要更好。这里我也解释一下上面横轴上的不同评测集的含义: AIME 测试集 2024 是指 2024 年的美国数学邀请赛(American Invitational Mathematics Examination),这是一项针对高中生的数学竞赛,旨在选拔优秀学生进入更高级别的数学竞赛。在人工智能领域,AIME 2024 的试题被用作评估大型语言模型(LLM)数学推理能力的基准数据集。另外,AIME(美国数学邀请赛)共有15道填空题,答案为0到999之间的整数。题目难度呈递增趋势,前5题相对简单,难度与AMC10/12相近,后10题难度逐渐增加,考察学生的数学综合应用和计算能力。 Codeforces 评测集 Codeforces是一个知名的在线编程竞赛平台,汇集了大量高质量的编程题目和用户提交的解决方案。由于其题目多样性和挑战性,研究人员常将 Codeforces 的题目用作评估大型语言模型(LLM)编程和推理能力的基准数据集。 GPQA Diamond 评测集 GPQA Diamond 是一个专门设计用于评估大型语言模型(LLM)在需要深度推理和领域专业知识问题上的能力的基准数据集。该数据集由纽约大学、CohereAI 和 Anthropic 的研究人员联合发布,旨在衡量模型在需要深度推理和领域专业知识问题上的能力。GPQA Diamond 数据集包含 198 道高难度的问答题,主要涵盖物理、化学、生物学和经济学等 STEM 领域。所有问题及其答案都经过领域专家的验证,确保准确性和完整性。这些问题设计为对抗性构建,防止模型依赖表面模式或记忆,强调深度理解和多步骤推理能力。在评估中,模型需要生成准确且完整的答案,主要评估指标为准确率。GPQA Diamond 为研究人员提供了一个具有挑战性的基准,用于评估和改进大型语言模型在复杂推理任务中的表现。 MATH-500 评测集 MATH-500 是一个包含 500 道数学题目的评测集,旨在全面考察大型语言模型(LLM)的数学解题能力。该评测集涵盖了多种数学主题,设计用于评估模型在数学推理和问题解决方面的表现。...

February 8, 2025 · 2 min · fisherdaddy

DeepSeek 模型发布和重大事件时间线一览

这里整理一下 DeepSeek 重大里程碑事件,部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2023年7月:DeepSeek 公司成立 核心功能:致力于 AGI 功能介绍:由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型 核心功能:DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。 功能介绍:DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型,它旨在提升代码编写的效率和质量,MIT 许可并允许商业用途。 项目地址:https://github.com/deepseek-ai/DeepSeek-LLM 论文地址:https://arxiv.org/abs/2401.02954 论文摘要 本文深入研究了大规模语言模型(LLMs)的扩展规律,并针对两种常用的开源配置 7B 和 67B 模型,提出了独特的发现,以促进模型扩展。研究团队基于长期主义视角,推出了开源语言模型项目 DeepSeek LLM。为了支持预训练,他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调(SFT)和直接偏好优化(DPO),最终得到了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出。此外,开放性评估显示,DeepSeek LLM 67B Chat 的性能优于 GPT-3....

February 8, 2025 · 10 min · fisherdaddy

用 Unsloth 在本地训练你自己的 R1 推理模型 • Unsloth

本文介绍了 Unsloth 的一项新功能,该功能使用户能够在本地训练自己的 R1 推理模型。这项创新利用 Group Relative Policy Optimization (GRPO) 算法,显著降低了训练推理模型所需的 VRAM,使得在消费级 GPU 上,如仅需 7GB VRAM 的情况下,复现 DeepSeek R1-Zero 的 “顿悟时刻” 成为可能。Unsloth 旨在让更多开发者能够便捷地将标准模型转化为具备完整推理能力的模型,并应用于定制化奖励模型和自动生成推理过程等多种场景。此外,Unsloth 还集成了 vLLM,进一步提升了吞吐量并降低了 VRAM 消耗,为用户提供更高效的微调和推理体验。 GRPO 算法引入 Unsloth: Unsloth 基于 DeepSeek R1 的研究,在自身平台中引入了 GRPO 算法,使用户能够训练模型自主学习分配更多思考时间,无需人工反馈。 VRAM 效率提升: Unsloth 优化了 GRPO 流程,使其 VRAM 占用比 Hugging Face + FA2 减少 80%,仅需 7GB VRAM 即可在 Qwen2.5 (1.5B) 模型上复现 R1-Zero 的 “顿悟时刻”。 广泛的模型兼容性: Unsloth 支持将参数量高达 150 亿的模型(如 Llama 3.1 (8B), Phi-4 (14B), Mistral (7B), Qwen2....

February 7, 2025 · 4 min · fisherdaddy

【科普】人工智能中的“量化”,到底是什么?

在人工智能蓬勃发展的今天,深度学习模型已经在图像识别、自然语言处理和自动驾驶等领域取得了令人瞩目的成绩。然而,随着模型规模不断增大,如何在保证模型性能的同时降低计算资源和能耗,成为了研究者和工程师们面临的重要课题。量化(Quantization)技术正是在这一背景下应运而生,并在实际应用中发挥了巨大作用。本文将带你深入了解人工智能中的量化技术,探讨它的原理、优点以及所面临的挑战。 什么是量化? 量化,顾名思义,就是将连续的数值转换为有限的、离散的数值集合。在计算机系统中,数据通常以二进制形式存储和处理。传统的深度学习模型中,神经网络的参数(如权重和激活值)通常使用 32 位浮点数(float32)表示,这样既能保证计算精度,也便于训练和优化。但在模型推理(Inference)阶段,对于一些对精度要求没有那么高的场景,我们可以用更低位数的数据来表示这些参数,这就是量化技术的基本思想。 1. 高精度浮点数 数据类型 位宽 符号位 指数位 尾数位 存储占用 主要特点 FP64(双精度) 64 1 11 52 8 字节 超高精度,适用于科学计算,存储和计算成本高 FP32(单精度) 32 1 8 23 4 字节 计算精度和存储占用均衡,深度学习主流格式 FP16(半精度) 16 1 5 10 2 字节 存储占用更低,适用于加速推理和混合精度训练 bfloat16 16 1 8 7 2 字节 与 FP32 共享相同指数位,训练稳定性更强 2. 低精度整数 数据类型 位宽 符号位 数值范围 存储占用 主要应用 int8 8 ✅ -128 ~ 127 1 字节 量化神经网络,提高推理速度,降低功耗 uint8 8 ❌ 0 ~ 255 1 字节 适用于正数数据的量化,提高数值范围 int16 16 ✅ -32,768 ~ 32,767 2 字节 需要更大范围整数时使用,深度学习较少用 int4 4 ✅ -8 ~ 7 0....

February 6, 2025 · 2 min · fisherdaddy

【科普】人工智能中的“知识蒸馏”,到底是什么?

随着 DeepSeek R1 的爆火,知识蒸馏这一人工智能中常用的技术进入大众视野。本篇面向对人工智能和机器学习感兴趣的初学者的科普性文章,主题聚焦于当前深度学习领域中被广泛应用的「知识蒸馏(Knowledge Distillation)」技术,希望能帮助读者快速了解它的概念、作用以及应用场景。 什么是知识蒸馏? 在深度学习的发展过程中,模型的规模(参数量)越来越大,性能也随之提升。然而,大模型在带来卓越性能的同时,往往也伴随着体积庞大、推理速度较慢、对硬件资源要求较高等问题。为了让深度学习模型在更广泛的场景中应用,人们提出了多种模型压缩技术,而「知识蒸馏」就是其中的一种。 知识蒸馏最早由 Hinton 等人在 2015 年提出(Hinton 被誉为AI 教父,同时获得了图灵奖和诺贝尔奖,也是 OpenAI 前首席科学家兼创始人 Ilya Sutskeve 的导师),其核心思想是:将一个性能很强但体积庞大的「教师模型(Teacher Model)」所学习到的“知识”提炼出来,再教给一个较小且更轻量的「学生模型(Student Model)」,使得学生模型既能保持较好的性能,又显著降低模型大小和推理成本。 可以把知识蒸馏比作一位优秀教师将自己的知识精华传授给学生的过程。教师模型经过大量数据的训练,具备了很强的表达能力和预测精度,但它通常拥有成百上千亿的参数,体积庞大且计算消耗高。而学生模型则采用简化的网络结构,虽然参数较少,但通过“模仿”教师模型的行为,能够达到相近的效果,从而大幅降低计算资源的需求。 传统的教学方式是直接告诉学徒“标准答案”(硬标签,Hard Label),例如,告诉他“这张图片是猫”、“这句话是肯定的”。 但你作为经验丰富的老师,知道仅仅知道“答案”是不够的,更重要的是理解“为什么是这个答案”以及“其他可能的答案是什么”。 知识蒸馏就像一种更高级的教学方式。 它不仅仅传递“标准答案”,更重要的是传递老师模型在学习过程中获得的**“软标签 (Soft Label)”**,也就是模型对各种可能性的“思考”和“概率分布”。 举个例子: 假设我们训练了一个强大的图像识别模型(教师模型)来识别猫和狗。 当给它一张猫的图片时,教师模型可能不会简单地输出“猫”这个答案,而是会给出这样的概率分布: 猫: 95% 狗: 4% 其他动物: 1% 这个概率分布就包含了丰富的信息: 高概率的“猫”: 这是正确答案,表示模型高度确信这张图片是猫。 较低概率的“狗”: 表示模型也考虑过“狗”的可能性,但认为可能性较低。 极低概率的“其他动物”: 表示模型几乎排除了其他动物的可能性。 这些概率分布,就是“软标签”。 它比仅仅给出“猫”这个“硬标签”包含了更多的信息,体现了教师模型更深层次的理解和判断。 简单来说,知识蒸馏的过程包括: 训练教师模型: 首先,我们训练一个强大的、性能优越的模型作为教师模型。这个模型通常体积较大、参数较多,能够学习到丰富的知识。 生成软标签: 教师模型不仅给出最终的分类结果,还能输出一个反映各类别概率分布的“软标签”。这些软标签揭示了类别之间的细微关系,比传统的硬标签(例如 0 与 1)包含更多信息。 训练学生模型: 利用相同的数据,同时使用教师模型输出的软标签和原始的硬标签,训练出一个结构轻巧但性能优秀的学生模型。 模仿学习: 学生模型通过模仿教师模型的“思考方式”(软标签),学习到教师模型更深层次的知识和泛化能力。 知识蒸馏的原理 软标签与温度参数 在传统的分类任务中,模型输出经过 softmax 层后,会将每个类别的得分转化为概率。知识蒸馏中,通过引入一个温度参数 T 来调整 softmax 的输出分布。当温度 T 较高时,输出分布会变得更加平滑,弱化“自信”预测,使得学生模型能够捕捉到教师模型对各类别之间相似性的信息。这就好比老师在授课时适当放慢节奏,让学生更容易理解各知识点之间的联系。...

February 6, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI Deep Research

OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能,名为 Deep Research。这项功能旨在作为一个智能代理,通过推理能力综合大量的在线信息,并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作,极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型,并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解,最终朝着实现通用人工智能 (AGI) 的目标迈进。 关键细节 可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出,Plus 和 Team 用户将在一个月后获得访问权限。 核心能力: Deep Research 能够根据用户提出的问题,自主地在互联网上查找、分析和综合数百个在线资源,生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件,并根据遇到的信息动态调整研究方向。 技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动,该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似,使用了强化学习,使其具备强大的推理能力和工具使用能力(如浏览器和 Python 工具)。 应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者,以及需要对汽车、家电和家具等产品进行深入研究的消费者。 输出特点: Deep Research 的输出结果是完全可追溯的,包含清晰的引用和思维过程总结,方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。 使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。 完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。 性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中,驱动 Deep Research 的模型取得了 26....

February 3, 2025 · 4 min · fisherdaddy

幻方量化、DeepSeek 与创始人梁文锋

2025年 1 月 20 号 DeepSeek 因开源了 o1 级别的深度推理模型 DeepSeek-R1 而在全球爆火,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,甚至一度让英伟达的股价暴跌 17%,核心原因有两点: 模型权重和技术细节完全公开,可复现; R1 的能力水平与 OpenAI 的 o1 相媲美,但通过创新算法和优化训练流程其成本仅为o1的3%-5%,训练成本仅为560万美元。 DeepSeek R1 的发布引爆了硅谷,在其发布一周后,微软云 Azure、亚马逊云 AWS、NVIDIA NIM、HuggingFace、Ceberus、Groq、Perplexity、Cursor、Windsurf、Krea 等各云厂商和 AI 产品陆续部署或接入 DeepSeek R1 和 V3 模型。更引来一众大佬的点评,有的大为赞赏,有的阴阳怪气,如 OpenAI CEO Sam Altman 表示"DeepSeek 的 R1 模型令人印象深刻,尤其考虑到其定价和性能表现。我们显然会推出更优秀的模型,而且看到新的竞争者加入也真的令人鼓舞!我们将很快发布一些新成果。",果然在 2025年1 月 31 号 OpenAI o3-mini 发布了。 OpenAI 高级研究副总裁 Mark Chen 表示“DeepSeek R1 论文中的发现和 o1有着相似的核心思想”。 Anthropic CEO Dario Amodei 发布长文表示“DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破。尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性”。 Groq 联合创始人兼 CEO Jonathan Ross 表示:“DeepSeek 的出现被认为是 AI 领域的 “Sputnik 2....

February 2, 2025 · 2 min · fisherdaddy

DeepSeek-R1 的训练过程是怎样的?• Epoch AI

本文由 Epoch AI 官方发布,主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价,并对围绕其训练成本的争议进行了分析。文章的核心观点包括: DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3,后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的,并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来,RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当,但价格却显著低于 o1,使其在性价比上更具优势。 尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室,但其模型以接近边际成本的价格提供服务,对用户来说更具吸引力。 关键细节 架构: DeepSeek-R1 的架构与 DeepSeek v3 完全相同,采用稀疏混合专家模型 (MoE),总参数量为 6710 亿,但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制,以降低 KV 缓存大小,同时保持性能。 预训练 (DeepSeek v3): DeepSeek v3 的预训练使用了混合精度 FP8,在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....

February 1, 2025 · 5 min · fisherdaddy