DeepSeek R1 本地部署的硬件需求与实战指南

最近很多朋友都咨询我怎么在自己的电脑上部署 deepseek r1,我很好奇为啥大家都要在自己 PC 上部署模型,而不是直接使用 DeepSeek 官网提供的网页或 app 版本,有的人告诉我是因为好奇,有的人是为了蹭一蹭热点,有的人说是为了显得牛逼,有的人说 DeepSeek 官网不稳定等等,反正各有各的原因。但我觉得对于个人而言,如果不是因为隐私或机密数据不能对外共享,其实使用本地部署的模型意义不大,而本地PC 能部署的模型参数很小,只有 1.5B、7B、8B、14B、32B、70B 这几个蒸馏版本,能力和满血版 deepseek-r1 671B 的模型能力相差甚远。但鉴于这些朋友不是从事 AI 相关工作,我都会给每个人科普一下以上这些信息,并列出 DeepSeek-R1 论文中给的各个模型的对比评测结果,最后给出一些本地部署蒸馏的小模型的指南。在这里我也把整理的内容分享给大家,有需要可自取。 评测结果 满血版的 deepseek-r1 671B 的模型评测结果 从上面结果可以看出来,DeepSeek-R1 的能力水平和 OpenAI 的 openai-o1-1217 版本能力相当,甚至有些评测集上要更好。这里我也解释一下上面横轴上的不同评测集的含义: AIME 测试集 2024 是指 2024 年的美国数学邀请赛(American Invitational Mathematics Examination),这是一项针对高中生的数学竞赛,旨在选拔优秀学生进入更高级别的数学竞赛。在人工智能领域,AIME 2024 的试题被用作评估大型语言模型(LLM)数学推理能力的基准数据集。另外,AIME(美国数学邀请赛)共有15道填空题,答案为0到999之间的整数。题目难度呈递增趋势,前5题相对简单,难度与AMC10/12相近,后10题难度逐渐增加,考察学生的数学综合应用和计算能力。 Codeforces 评测集 Codeforces是一个知名的在线编程竞赛平台,汇集了大量高质量的编程题目和用户提交的解决方案。由于其题目多样性和挑战性,研究人员常将 Codeforces 的题目用作评估大型语言模型(LLM)编程和推理能力的基准数据集。 GPQA Diamond 评测集 GPQA Diamond 是一个专门设计用于评估大型语言模型(LLM)在需要深度推理和领域专业知识问题上的能力的基准数据集。该数据集由纽约大学、CohereAI 和 Anthropic 的研究人员联合发布,旨在衡量模型在需要深度推理和领域专业知识问题上的能力。GPQA Diamond 数据集包含 198 道高难度的问答题,主要涵盖物理、化学、生物学和经济学等 STEM 领域。所有问题及其答案都经过领域专家的验证,确保准确性和完整性。这些问题设计为对抗性构建,防止模型依赖表面模式或记忆,强调深度理解和多步骤推理能力。在评估中,模型需要生成准确且完整的答案,主要评估指标为准确率。GPQA Diamond 为研究人员提供了一个具有挑战性的基准,用于评估和改进大型语言模型在复杂推理任务中的表现。 MATH-500 评测集 MATH-500 是一个包含 500 道数学题目的评测集,旨在全面考察大型语言模型(LLM)的数学解题能力。该评测集涵盖了多种数学主题,设计用于评估模型在数学推理和问题解决方面的表现。...

February 8, 2025 · 2 min · fisherdaddy

DeepSeek 模型发布和重大事件时间线一览

这里整理一下 DeepSeek 重大里程碑事件,部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2023年7月:DeepSeek 公司成立 核心功能:致力于 AGI 功能介绍:由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型 核心功能:DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。 功能介绍:DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型,它旨在提升代码编写的效率和质量,MIT 许可并允许商业用途。 项目地址:https://github.com/deepseek-ai/DeepSeek-LLM 论文地址:https://arxiv.org/abs/2401.02954 论文摘要 本文深入研究了大规模语言模型(LLMs)的扩展规律,并针对两种常用的开源配置 7B 和 67B 模型,提出了独特的发现,以促进模型扩展。研究团队基于长期主义视角,推出了开源语言模型项目 DeepSeek LLM。为了支持预训练,他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调(SFT)和直接偏好优化(DPO),最终得到了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出。此外,开放性评估显示,DeepSeek LLM 67B Chat 的性能优于 GPT-3....

February 8, 2025 · 9 min · fisherdaddy

用 Unsloth 在本地训练你自己的 R1 推理模型 • Unsloth

本文介绍了 Unsloth 的一项新功能,该功能使用户能够在本地训练自己的 R1 推理模型。这项创新利用 Group Relative Policy Optimization (GRPO) 算法,显著降低了训练推理模型所需的 VRAM,使得在消费级 GPU 上,如仅需 7GB VRAM 的情况下,复现 DeepSeek R1-Zero 的 “顿悟时刻” 成为可能。Unsloth 旨在让更多开发者能够便捷地将标准模型转化为具备完整推理能力的模型,并应用于定制化奖励模型和自动生成推理过程等多种场景。此外,Unsloth 还集成了 vLLM,进一步提升了吞吐量并降低了 VRAM 消耗,为用户提供更高效的微调和推理体验。 GRPO 算法引入 Unsloth: Unsloth 基于 DeepSeek R1 的研究,在自身平台中引入了 GRPO 算法,使用户能够训练模型自主学习分配更多思考时间,无需人工反馈。 VRAM 效率提升: Unsloth 优化了 GRPO 流程,使其 VRAM 占用比 Hugging Face + FA2 减少 80%,仅需 7GB VRAM 即可在 Qwen2.5 (1.5B) 模型上复现 R1-Zero 的 “顿悟时刻”。 广泛的模型兼容性: Unsloth 支持将参数量高达 150 亿的模型(如 Llama 3.1 (8B), Phi-4 (14B), Mistral (7B), Qwen2....

February 7, 2025 · 4 min · fisherdaddy

【科普】人工智能中的“量化”,到底是什么?

在人工智能蓬勃发展的今天,深度学习模型已经在图像识别、自然语言处理和自动驾驶等领域取得了令人瞩目的成绩。然而,随着模型规模不断增大,如何在保证模型性能的同时降低计算资源和能耗,成为了研究者和工程师们面临的重要课题。量化(Quantization)技术正是在这一背景下应运而生,并在实际应用中发挥了巨大作用。本文将带你深入了解人工智能中的量化技术,探讨它的原理、优点以及所面临的挑战。 什么是量化? 量化,顾名思义,就是将连续的数值转换为有限的、离散的数值集合。在计算机系统中,数据通常以二进制形式存储和处理。传统的深度学习模型中,神经网络的参数(如权重和激活值)通常使用 32 位浮点数(float32)表示,这样既能保证计算精度,也便于训练和优化。但在模型推理(Inference)阶段,对于一些对精度要求没有那么高的场景,我们可以用更低位数的数据来表示这些参数,这就是量化技术的基本思想。 1. 高精度浮点数 数据类型 位宽 符号位 指数位 尾数位 存储占用 主要特点 FP64(双精度) 64 1 11 52 8 字节 超高精度,适用于科学计算,存储和计算成本高 FP32(单精度) 32 1 8 23 4 字节 计算精度和存储占用均衡,深度学习主流格式 FP16(半精度) 16 1 5 10 2 字节 存储占用更低,适用于加速推理和混合精度训练 bfloat16 16 1 8 7 2 字节 与 FP32 共享相同指数位,训练稳定性更强 2. 低精度整数 数据类型 位宽 符号位 数值范围 存储占用 主要应用 int8 8 ✅ -128 ~ 127 1 字节 量化神经网络,提高推理速度,降低功耗 uint8 8 ❌ 0 ~ 255 1 字节 适用于正数数据的量化,提高数值范围 int16 16 ✅ -32,768 ~ 32,767 2 字节 需要更大范围整数时使用,深度学习较少用 int4 4 ✅ -8 ~ 7 0....

February 6, 2025 · 2 min · fisherdaddy

【科普】人工智能中的“知识蒸馏”,到底是什么?

随着 DeepSeek R1 的爆火,知识蒸馏这一人工智能中常用的技术进入大众视野。本篇面向对人工智能和机器学习感兴趣的初学者的科普性文章,主题聚焦于当前深度学习领域中被广泛应用的「知识蒸馏(Knowledge Distillation)」技术,希望能帮助读者快速了解它的概念、作用以及应用场景。 什么是知识蒸馏? 在深度学习的发展过程中,模型的规模(参数量)越来越大,性能也随之提升。然而,大模型在带来卓越性能的同时,往往也伴随着体积庞大、推理速度较慢、对硬件资源要求较高等问题。为了让深度学习模型在更广泛的场景中应用,人们提出了多种模型压缩技术,而「知识蒸馏」就是其中的一种。 知识蒸馏最早由 Hinton 等人在 2015 年提出(Hinton 被誉为AI 教父,同时获得了图灵奖和诺贝尔奖,也是 OpenAI 前首席科学家兼创始人 Ilya Sutskeve 的导师),其核心思想是:将一个性能很强但体积庞大的「教师模型(Teacher Model)」所学习到的“知识”提炼出来,再教给一个较小且更轻量的「学生模型(Student Model)」,使得学生模型既能保持较好的性能,又显著降低模型大小和推理成本。 可以把知识蒸馏比作一位优秀教师将自己的知识精华传授给学生的过程。教师模型经过大量数据的训练,具备了很强的表达能力和预测精度,但它通常拥有成百上千亿的参数,体积庞大且计算消耗高。而学生模型则采用简化的网络结构,虽然参数较少,但通过“模仿”教师模型的行为,能够达到相近的效果,从而大幅降低计算资源的需求。 传统的教学方式是直接告诉学徒“标准答案”(硬标签,Hard Label),例如,告诉他“这张图片是猫”、“这句话是肯定的”。 但你作为经验丰富的老师,知道仅仅知道“答案”是不够的,更重要的是理解“为什么是这个答案”以及“其他可能的答案是什么”。 知识蒸馏就像一种更高级的教学方式。 它不仅仅传递“标准答案”,更重要的是传递老师模型在学习过程中获得的**“软标签 (Soft Label)”**,也就是模型对各种可能性的“思考”和“概率分布”。 举个例子: 假设我们训练了一个强大的图像识别模型(教师模型)来识别猫和狗。 当给它一张猫的图片时,教师模型可能不会简单地输出“猫”这个答案,而是会给出这样的概率分布: 猫: 95% 狗: 4% 其他动物: 1% 这个概率分布就包含了丰富的信息: 高概率的“猫”: 这是正确答案,表示模型高度确信这张图片是猫。 较低概率的“狗”: 表示模型也考虑过“狗”的可能性,但认为可能性较低。 极低概率的“其他动物”: 表示模型几乎排除了其他动物的可能性。 这些概率分布,就是“软标签”。 它比仅仅给出“猫”这个“硬标签”包含了更多的信息,体现了教师模型更深层次的理解和判断。 简单来说,知识蒸馏的过程包括: 训练教师模型: 首先,我们训练一个强大的、性能优越的模型作为教师模型。这个模型通常体积较大、参数较多,能够学习到丰富的知识。 生成软标签: 教师模型不仅给出最终的分类结果,还能输出一个反映各类别概率分布的“软标签”。这些软标签揭示了类别之间的细微关系,比传统的硬标签(例如 0 与 1)包含更多信息。 训练学生模型: 利用相同的数据,同时使用教师模型输出的软标签和原始的硬标签,训练出一个结构轻巧但性能优秀的学生模型。 模仿学习: 学生模型通过模仿教师模型的“思考方式”(软标签),学习到教师模型更深层次的知识和泛化能力。 知识蒸馏的原理 软标签与温度参数 在传统的分类任务中,模型输出经过 softmax 层后,会将每个类别的得分转化为概率。知识蒸馏中,通过引入一个温度参数 T 来调整 softmax 的输出分布。当温度 T 较高时,输出分布会变得更加平滑,弱化“自信”预测,使得学生模型能够捕捉到教师模型对各类别之间相似性的信息。这就好比老师在授课时适当放慢节奏,让学生更容易理解各知识点之间的联系。...

February 6, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI Deep Research

OpenAI 于 2025 年 2 月 2 日发布了 ChatGPT 的一项新功能,名为 Deep Research。这项功能旨在作为一个智能代理,通过推理能力综合大量的在线信息,并为用户完成多步骤的研究任务。 Deep Research 能够在数十分钟内完成人类分析师需要数小时才能完成的工作,极大地提高了知识工作者和需要深入研究的用户的效率。它基于即将推出的 OpenAI o3 模型,并针对网页浏览和数据分析进行了优化。 Deep Research 的目标是能够自主发现、推理和整合来自网络各处的见解,最终朝着实现通用人工智能 (AGI) 的目标迈进。 关键细节 可用性: 于 2025 年 2 月 2 日面向 ChatGPT Pro 用户推出,Plus 和 Team 用户将在一个月后获得访问权限。 核心能力: Deep Research 能够根据用户提出的问题,自主地在互联网上查找、分析和综合数百个在线资源,生成一份全面的研究报告。它能够处理文本、图像和 PDF 文件,并根据遇到的信息动态调整研究方向。 技术基础: Deep Research 由 OpenAI o3 模型的某个版本驱动,该模型专为网页浏览和数据分析而优化。其训练方法与 OpenAI o1 类似,使用了强化学习,使其具备强大的推理能力和工具使用能力(如浏览器和 Python 工具)。 应用场景: Deep Research 适用于金融、科学、政策和工程等领域的知识工作者,以及需要对汽车、家电和家具等产品进行深入研究的消费者。 输出特点: Deep Research 的输出结果是完全可追溯的,包含清晰的引用和思维过程总结,方便用户验证信息。它尤其擅长发现那些需要浏览大量网站才能找到的小众和非直观信息。 使用方法: 用户在 ChatGPT 的消息编辑器中选择 “deep research” 模式并输入查询。可以附加文件或电子表格以提供更多背景信息。研究过程会在侧边栏显示步骤和来源。 完成时间: Deep Research 完成任务可能需要 5 到 30 分钟。 性能评估: 在 “Humanity’s Last Exam” (人类最后一次考试) 基准测试中,驱动 Deep Research 的模型取得了 26....

February 3, 2025 · 4 min · fisherdaddy

幻方量化、DeepSeek 与创始人梁文锋

2025年 1 月 20 号 DeepSeek 因开源了 o1 级别的深度推理模型 DeepSeek-R1 而在全球爆火,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,甚至一度让英伟达的股价暴跌 17%,核心原因有两点: 模型权重和技术细节完全公开,可复现; R1 的能力水平与 OpenAI 的 o1 相媲美,但通过创新算法和优化训练流程其成本仅为o1的3%-5%,训练成本仅为560万美元。 DeepSeek R1 的发布引爆了硅谷,在其发布一周后,微软云 Azure、亚马逊云 AWS、NVIDIA NIM、HuggingFace、Ceberus、Groq、Perplexity、Cursor、Windsurf、Krea 等各云厂商和 AI 产品陆续部署或接入 DeepSeek R1 和 V3 模型。更引来一众大佬的点评,有的大为赞赏,有的阴阳怪气,如 OpenAI CEO Sam Altman 表示"DeepSeek 的 R1 模型令人印象深刻,尤其考虑到其定价和性能表现。我们显然会推出更优秀的模型,而且看到新的竞争者加入也真的令人鼓舞!我们将很快发布一些新成果。",果然在 2025年1 月 31 号 OpenAI o3-mini 发布了。 OpenAI 高级研究副总裁 Mark Chen 表示“DeepSeek R1 论文中的发现和 o1有着相似的核心思想”。 Anthropic CEO Dario Amodei 发布长文表示“DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破。尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性”。 Groq 联合创始人兼 CEO Jonathan Ross 表示:“DeepSeek 的出现被认为是 AI 领域的 “Sputnik 2....

February 2, 2025 · 2 min · fisherdaddy

DeepSeek-R1 的训练过程是怎样的?• Epoch AI

本文由 Epoch AI 官方发布,主要探讨了 DeepSeek 最新发布的开源推理模型 DeepSeek-R1 的训练过程、架构、性能和定价,并对围绕其训练成本的争议进行了分析。文章的核心观点包括: DeepSeek-R1 的成功很大程度上归功于其高质量的基座模型 DeepSeek v3,后者是 R1 成功的关键技术基础。 DeepSeek 公布的 DeepSeek v3 预训练成本是合理的,并没有低估或虚报。 DeepSeek-R1 通过强化学习 (RL) 从 v3 基座模型进化而来,RL 阶段的估计成本约为 $ 1M 美元。 DeepSeek-R1 在基准测试中表现与 OpenAI 的 o1 模型相当,但价格却显著低于 o1,使其在性价比上更具优势。 尽管 DeepSeek 在软件效率方面可能略微落后于顶尖的美国实验室,但其模型以接近边际成本的价格提供服务,对用户来说更具吸引力。 关键细节 架构: DeepSeek-R1 的架构与 DeepSeek v3 完全相同,采用稀疏混合专家模型 (MoE),总参数量为 6710 亿,但每个 token 仅激活 370 亿参数。模型使用了多头隐式注意力 (MLA) 机制,以降低 KV 缓存大小,同时保持性能。 预训练 (DeepSeek v3): DeepSeek v3 的预训练使用了混合精度 FP8,在包含 2048 块 H800 GPU 的集群上进行。训练 1 万亿 token 耗时 3....

February 1, 2025 · 5 min · fisherdaddy

介绍一下 OpenAI o3-mini

2025年1月31日 OpenAI 推出了 o3-mini 模型,这是 OpenAI 推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。 开发者支持 支持函数调用、结构化输出和开发者消息 支持流式传输 支持低、中、高三种推理强度选项 不支持视觉功能,对于视觉推理任务仍然需要使用 o1 向 API 使用等级 3-5 的开发者开放 可用性 ChatGPT Plus、Team 和 Pro 用户今天就可以开始使用 OpenAI o3-mini,企业用户将在 一周后获得访问权限。 Plus 和 Team 用户的消息配额从 o1-mini 的每天 50 条提升至 o3-mini 的每天 150 条。而 Pro 用户 可以无限制使用。 免费用户也可使用 o3-mini ,但需要在消息编辑框中选择“Reason”按钮。 o3-mini 支持搜索功能 o1 是更通用的知识推理模型,而 o3-mini 为那些对精度和速度有较高要求的技术领域提供了一个专门的选择。 在 ChatGPT 中,o3-mini 使用中等推理强度,以平衡速度和准确性。所有付费用户还可以在模型选择器中选择 o3-mini-high,这是一个更高智能的版本,但生成响应所需的时间稍长。 能力水平 与 OpenAI o1 类似,OpenAI o3-mini 针对 STEM 推理进行了优化。 在低推理需求下,OpenAI o3-mini 的表现与 OpenAI o1-mini 相当。 在中等推理强度下,o3-mini 在数学、编程和科学方面的表现与 o1 持平,同时响应速度更快。 在高推理需求下,o3-mini 优于 OpenAI o1-mini 和 OpenAI o1。 原文 探索更具性价比的推理能力 我们很高兴地宣布推出 OpenAI o3-mini,这是我们推理系列中最新且最具成本效益的模型,现已在 ChatGPT 和 API 中上线。这款模型在 2024 年 12 月的 预告 中首次亮相,它强大而快速,突破了小型模型的能力极限,在科学、数学和编程等 STEM 领域表现尤为出色,同时还保持了 OpenAI o1-mini 的低成本和低延迟。...

February 1, 2025 · 4 min · fisherdaddy

强化学习升温,白宫发布 AI 新政,DeepSeek 开源模型引热议:AI 未来走向何方?• Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章,主要探讨了近期 AI 领域的几个重要趋势和进展,涵盖了中国在生成式 AI 领域的快速发展、开源模型的影响、强化学习在提升语言模型推理能力方面的作用、AI 智能体在计算机应用中的兴起,以及美国 AI 政策的新动向和利用合成数据进行模型微调的优化方法。文章的核心论点包括: 中国 AI 追赶: DeepSeek 发布的 DeepSeek-R1 模型,在基准测试中性能与 OpenAI 的 o1 相当,并以 MIT 许可证开源发布。 DeepSeek-R1 的发布引发市场对中国 AI 进步的关注,甚至导致 Nvidia 等美国科技公司股价短暂下跌 (“DeepSeek selloff”)。 中国的 Qwen、Kimi、InternVL 等模型也显示出中国在生成式 AI 领域的快速发展。 开源模型对于 AI 供应链至关重要,美国若限制开源,可能导致中国在这一领域占据主导地位。 开源模型商品化: DeepSeek R1 的 token 价格远低于 OpenAI 的 o1 (DeepSeek R1 为 $2.19 / 百万 tokens,o1 为 $60 / 百万 tokens),价格差异近 30 倍。 训练基础模型并提供 API 访问的商业模式面临挑战,而基于基础模型构建应用则有巨大的商业机会。 算法创新降低成本: DeepSeek 团队通过算法优化,在性能相对较弱的 H800 GPU 上训练出了高性能模型,计算成本低于 $600 万美元。 即使计算成本降低,对智能和算力的需求长期来看依然巨大。 强化学习提升推理:...

February 1, 2025 · 3 min · fisherdaddy