DeepSeek 官方推荐:Deepseek-R1 模型要这样设置

DeepSeek 官方发文:“很高兴看到每个人都对部署 DeepSeek-R1 的热情!这是我们推荐的设置,以获得最佳体验。"。 总结下来,官方推荐如下四点核心设置: 1. 不要设置 System prompt 2. temperature 设置为 0.6 3. 使用官方推荐的 prompt 在官方的 DeepSeek 网站与应用中,我们没有使用系统提示,而是专门设计了两个提示,分别用于文件上传和网页搜索,以优化用户体验。此外,网站与应用中的温度设置为 0.6。 对于文件上传的 prompt 请按照模板创建提示词,其中 {file_name}、{file_content} 和 {question} 是参数。 file_template = \ """[file name]: {file_name} [file content begin] {file_content} [file content end] {question}""" 对于网页搜索的 prompt {search_results}、{cur_data} 和 {question} 是参数。 中文 prompt search_answer_zh_template = \ '''# 以下内容是基于用户发送的消息的搜索结果: {search_results} 在我给你的搜索结果中,每个结果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文,请列出所有相关的引用编号,例如[citation:3][citation:5],切记不要将引用集中在最后返回引用编号,而是在答案对应部分列出。 在回答时,请注意以下几点: - 今天是{cur_date}。 - 并非搜索结果的所有内容都与用户的问题密切相关,你需要结合问题,对搜索结果进行甄别、筛选。 - 对于列举类的问题(如列举所有航班信息),尽量将答案控制在10个要点以内,并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项;如非必要,不要主动告诉用户搜索结果未提供的内容。 - 对于创作类的问题(如写论文),请务必在正文的段落中引用对应的参考编号,例如[citation:3][citation:5],不能只在文章末尾引用。你需要解读并概括用户的题目要求,选择合适的格式,充分利用搜索结果并抽取重要信息,生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长,对于每一个要点的论述要推测用户的意图,给出尽可能多角度的回答要点,且务必信息量大、论述详尽。 - 如果回答很长,请尽量结构化、分段落总结。如果需要分点作答,尽量控制在5个点以内,并合并相关的内容。 - 对于客观类的问答,如果问题的答案非常简短,可以适当补充一到两句相关信息,以丰富内容。 - 你需要根据用户要求和回答内容选择合适、美观的回答格式,确保可读性强。 - 你的回答应该综合多个相关网页来回答,不能重复引用一个网页。 - 除非用户要求,否则你回答的语言需要和用户提问的语言保持一致。 # 用户消息为: {question}''' 英文 prompt search_answer_en_template = \ '''# The following contents are the search results related to the user's message: {search_results} In the search results I provide to you, each result is formatted as [webpage X begin]....

February 15, 2025 · 3 min · fisherdaddy

Jeff Dean 和 Noam Shazeer 访谈 - 在 Google 的 25 年从 PageRank 到 AGI

本篇文章主要记录一下 Dwarkesh Patel 在 2025 年 2 月 13 日 对 Jeff Dean 和 Noam Shazeer 的访谈。在开始详细记录本次访谈的核心内容之前,我想先给大家介绍一下两位嘉宾。 Jeff Dean Jeff Dean 是 Google 的首席科学家,在 Google 公司的 25 年里,他基本上参与了现代计算领域最具变革性的系统:从 MapReduce、BigTable、Tensorflow、AlphaChip 到 Gemini。他于1968年出生,早在加入 Google 之前,他曾在 DEC(数字设备公司)的西部研究实验室从事性能分析工具、微处理器架构和信息检索等方面的研究。1999年,Jeff Dean 加入 Google,当时他是公司的早期员工之一(据说他是第20号员工),并很快在 Google 的广告系统、网页爬虫、索引和查询服务系统等关键基础设施的设计与实现中发挥了举足轻重的作用。 在 Google 工作期间,Dean 与同事 Sanjay Ghemawat 合作,推出了许多标志性技术: • MapReduce:一种大规模数据处理的编程模型,奠定了 Google 后续分布式系统的基础。 • Bigtable:一种面向海量结构化数据的分布式存储系统。 • DistBelief/TensorFlow:Dean 领导的分布式深度学习系统,后被重构为如今广泛应用的开源机器学习框架 TensorFlow。 此外,Jeff Dean 在 2011 年参与创立了 Google Brain,致力于深度神经网络的研究,并在 2012 年成为其领导者。2018 年,他被任命为 Google AI 的负责人,而在 2023 年,随着 Google DeepMind 与 Google Brain 的整合,他又晋升为公司的首席科学家,直接负责公司整体的 AI 战略。...

February 15, 2025 · 3 min · fisherdaddy

OpenAI官方指南:推理模型最佳实践

本文由 OpenAI 官方文档 翻译而来,介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别,以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型:推理模型 (reasoning models),例如 o1 和 o3-mini,以及 GPT 模型 (GPT models),例如 GPT-4o。这两类模型的行为特性有所不同。 本指南将介绍: OpenAI 的推理型模型和非推理型 GPT 模型之间的差异 何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比 与 GPT 模型 (GPT models) 相比,OpenAI 的 o 系列模型在不同任务上各有优势,并且需要的提示方式也不同。 它们之间不存在绝对的优劣之分,只是擅长的领域不同。 OpenAI 训练 o 系列模型(可以称它们为“规划者”)能够花费更多时间和精力思考复杂的任务,使它们在以下方面表现出色:制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。 这些模型还能以极高的精度和准确性执行任务,非常适合那些通常需要人类专家才能胜任的领域,例如数学、科学、工程、金融和法律服务。 另一方面,低延迟、高性价比的 GPT 模型 (GPT models)(可以称它们为“主力”)则专为直接执行任务而设计。 在实际应用中,可以利用 o 系列模型来规划解决问题的总体策略,然后使用 GPT 模型 (GPT models) 执行具体任务,尤其是在对速度和成本的考量高于对完美准确性的追求时。 如何选择 对于你的应用场景,什么才是最重要的?...

February 14, 2025 · 3 min · fisherdaddy

Anthropic 经济指数

Anthropic 推出了 Anthropic 经济指数 (Anthropic Economic Index),旨在深入理解 生成式 AI 系统对劳动力市场和经济产生的重大影响。该指数的首份报告基于 Claude.ai 上的数百万匿名对话进行了首次数据分析,揭示了 生成式 AI 如何融入现代经济中的实际工作任务。为了促进更广泛的研究和政策制定,Anthropic 开放了用于此分析的数据集,并邀请经济学家、政策专家和其他研究人员为该指数提供input。 初步报告的主要发现包括: 生成式 AI 的使用目前主要集中在软件开发和技术写作任务中。 大约 36% 的职业在其至少四分之一的相关任务中使用了 生成式 AI,而约 4% 的职业在其四分之三的相关任务中使用了 生成式 AI。 生成式 AI 的使用更倾向于增强人类能力(57%),即 AI 与人类协作并提升其能力,而非直接自动化任务(43%)。 生成式 AI 在中等至中高工资职业中的使用更为普遍,但在最低和最高工资岗位中的使用率较低。这可能反映了当前 AI 能力的局限性以及技术应用的实际障碍。 数据来源与分析方法 该研究基于经济学文献中关于职业任务而非职业本身的见解,使用 Anthropic 内部的自动化分析工具 Clio 分析了约一百万次 Claude (Free 和 Pro 版本) 的对话。Clio 将每次对话与美国劳工部 ONET (Occupational Information Network) 数据库中的职业任务进行匹配,ONET 数据库包含约 20,000 个特定工作相关任务。然后,研究人员按照 O*NET 的分类方案,将任务分组到相应的职业和职业类别中。 AI 使用的行业分布 数据显示,“计算机和数学” 类别(主要涵盖软件工程角色)的职业中,生成式 AI 的采用率最高,占 Claude 查询的 37....

February 14, 2025 · 3 min · fisherdaddy

Deep Research 与知识价值 • Ben Thompson

本文由 Stratechery 的作者 Ben Thompson 撰写,OpenAI 的 Deep Research 是一项新的 AI 功能,它标志着朝着通用人工智能(AGI)迈出的重要一步。Deep Research 能够独立执行复杂的研究任务,在短时间内完成人类研究分析师需要数小时才能完成的工作。这项技术的核心价值在于其能够综合网络上的大量信息,为用户提供深入的报告,从而极大地提升了知识获取和研究效率。然而,Deep Research 也揭示了互联网信息的局限性,尤其是在处理非公开或专业领域知识时,它可能会产生不完整甚至错误的报告,突显了在信息过载时代,高质量、非公开知识的价值日益凸显。 Deep Research 的功能与特点 高效的研究能力: Deep Research 可以在几十分钟内完成人类研究人员数小时的工作,显著提升研究效率。 强大的信息综合能力: 它能够搜索、解释和分析互联网上大量的文本、图像和 PDF 文件,并根据遇到的信息进行调整,最终生成综合性的研究报告。 基于 o3 模型优化版本: Deep Research 由 OpenAI 即将推出的 o3 模型的优化版本驱动,该版本专为网络浏览和数据分析而设计。 经济价值: 作者以每月 200 美元的价格体验了 Deep Research,认为其在某些应用场景下具有很高的经济价值,例如为采访准备背景资料,或快速了解复杂议题。 Deep Research 的应用案例 苹果公司财报分析: 作者使用 Deep Research 分析了 苹果公司 的最新财报,并将其与自己之前的分析进行对比,结果表明 Deep Research 能够理解并整合作者的分析风格和观点,生成有价值的报告。 ServiceNow 公司 CEO 采访准备: 作者利用 Deep Research 快速了解了 ServiceNow 公司 及其 CEO Bill McDermott 的背景信息,为采访准备节省了大量时间,并获得了有用的起始信息。 医疗问题研究: Deep Research 在一个朋友的复杂医疗问题研究中,快速识别出了一个潜在的关键问题,这显示了其在专业领域研究方面的潜力。 行业分析的局限性: 在一个行业分析案例中,Deep Research 报告遗漏了一个重要的行业参与者,揭示了其在处理非公开或难以获取的网络信息时的局限性,强调了非公开知识的价值。 Deep Research 对知识价值的影响 新闻价值的启示: 互联网时代新闻的经济价值降低,反映了信息过载和免费传播的挑战。Deep Research 的出现进一步加剧了信息过载,但也突显了高质量、独特知识的稀缺性和价值。 秘密和非公开信息的价值: Deep Research 的局限性在于其无法获取非公开信息,这使得那些未公开的数据和知识变得更有价值。例如,亚马逊 AWS 在早期阶段的财务数据未公开,直到后来才披露,其披露引发了市场对 亚马逊 价值的重新评估,也引发了竞争对手的追赶。 预测市场的潜力: 为了应对信息透明度提高和秘密信息价值上升的趋势,预测市场可能变得更加重要。预测市场能够通过价格信号来传播知识,为获取和传播非公开信息提供经济激励。 AI 的双重作用: AI 既可能加剧互联网信息污染,也可能是解决信息过载和甄别高质量信息的关键。Deep Research 这样的工具,在提升信息获取效率的同时,也促使人们重新思考知识的价值和获取方式。 Deep Research 的影响与未来展望 生产力提升: Deep Research 能够显著提升个人和组织的生产力,尤其是在研究和知识工作领域。 对研究人员的潜在影响: Deep Research 可能会对传统研究人员的就业市场产生影响,因为它可以自动化一部分研究工作。 对下一代分析师的挑战: 过度依赖 Deep Research 可能会使下一代分析师失去在信息搜索和筛选过程中学习和积累知识的机会。 秘密和摩擦的价值: 在 AI 时代,秘密和摩擦(即信息获取的难度)可能成为一种有意的价值保护机制,用于保护和利用独特的知识资产。 持续发展: Deep Research 仍处于早期阶段,未来将不断发展和完善,其能力和应用场景也将持续扩展。 原文 “你什么时候感觉到通用人工智能 (AGI) 了?”...

February 13, 2025 · 3 min · fisherdaddy

三个观察 • Sam Altman

本文是 OpenAI 的联合创始人兼 CEO Sam Altman 在今早刚发表的一篇文章,核心观点是,人工通用智能 (AGI) 的发展正快速推进,预示着社会和经济将发生巨大变革。Altman 认为, AGI 不仅仅是又一项技术工具,而是一个划时代的转折点,它将极大地提升人类的生产力,并有可能解决许多全球性难题。 AGI 的定义与愿景: AGI 被定义为一种能够在多个领域以人类水平解决复杂问题的系统。AGI 是人类不断进步的阶梯上又一个工具,但这次有所不同,它将带来惊人的经济增长,并有望实现治愈疾病、增加休闲时间、充分发挥创造潜能等愿景。 AI 发展的三个经济学观察: 智能与资源成对数关系: AI 模型的智能水平大致与训练和运行它所使用的资源 (计算资源、数据、推理计算) 的对数成正比。这意味着持续投入资源可以持续且可预测地提升 AI 智能。 AI 使用成本快速下降: AI 的使用成本大约每 12 个月下降 10 倍。例如, GPT-4 的 token 成本从 2023 年初到 2024 年中发布的 GPT-4o 下降了约 150 倍。这种成本下降速度远超摩尔定律。 智能线性增长的社会经济价值超指数级增长: 线性增长的智能所带来的社会经济价值呈超指数级增长。因此,对 AI 的指数级增长投资在可预见的未来不会停止。 AI 智能体 (AI agents) 的出现: AI 智能体,例如软件工程智能体,将逐渐普及,并像虚拟同事一样工作。它们能够完成资深软件工程师在数天内完成的大部分任务,尽管需要人类的监督和指导,并且在某些方面表现出色,在另一些方面则可能表现不佳。 AGI 对社会和经济的长期影响: AGI 可能会像晶体管一样渗透到经济的各个角落,广泛分布其收益,并深刻改变人们的生活。虽然短期内生活变化不大,但长期来看,社会和经济将发生巨大变革。 个人能力提升与价值重塑: AGI 将极大地提升个人能力,使个人能够产生比以往更大的影响力。意志力、目标明确性和适应不断变化的世界的能力将变得极其重要。 AGI 影响的不均衡性: AGI 对不同行业的影响程度不同,科学进步可能会加速,某些商品的价格将大幅下降,而奢侈品和稀缺资源的价格可能会上涨。 AGI 的社会融合与安全: 作者强调,需要社会各界共同思考如何将 AGI 融入社会, 原文 我们的使命是确保通用人工智能 (AGI) 惠及全人类。...

February 10, 2025 · 1 min · fisherdaddy

DeepSeek R1 本地部署的硬件需求与实战指南

最近很多朋友都咨询我怎么在自己的电脑上部署 deepseek r1,我很好奇为啥大家都要在自己 PC 上部署模型,而不是直接使用 DeepSeek 官网提供的网页或 app 版本,有的人告诉我是因为好奇,有的人是为了蹭一蹭热点,有的人说是为了显得牛逼,有的人说 DeepSeek 官网不稳定等等,反正各有各的原因。但我觉得对于个人而言,如果不是因为隐私或机密数据不能对外共享,其实使用本地部署的模型意义不大,而本地PC 能部署的模型参数很小,只有 1.5B、7B、8B、14B、32B、70B 这几个蒸馏版本,能力和满血版 deepseek-r1 671B 的模型能力相差甚远。但鉴于这些朋友不是从事 AI 相关工作,我都会给每个人科普一下以上这些信息,并列出 DeepSeek-R1 论文中给的各个模型的对比评测结果,最后给出一些本地部署蒸馏的小模型的指南。在这里我也把整理的内容分享给大家,有需要可自取。 评测结果 满血版的 deepseek-r1 671B 的模型评测结果 从上面结果可以看出来,DeepSeek-R1 的能力水平和 OpenAI 的 openai-o1-1217 版本能力相当,甚至有些评测集上要更好。这里我也解释一下上面横轴上的不同评测集的含义: AIME 测试集 2024 是指 2024 年的美国数学邀请赛(American Invitational Mathematics Examination),这是一项针对高中生的数学竞赛,旨在选拔优秀学生进入更高级别的数学竞赛。在人工智能领域,AIME 2024 的试题被用作评估大型语言模型(LLM)数学推理能力的基准数据集。另外,AIME(美国数学邀请赛)共有15道填空题,答案为0到999之间的整数。题目难度呈递增趋势,前5题相对简单,难度与AMC10/12相近,后10题难度逐渐增加,考察学生的数学综合应用和计算能力。 Codeforces 评测集 Codeforces是一个知名的在线编程竞赛平台,汇集了大量高质量的编程题目和用户提交的解决方案。由于其题目多样性和挑战性,研究人员常将 Codeforces 的题目用作评估大型语言模型(LLM)编程和推理能力的基准数据集。 GPQA Diamond 评测集 GPQA Diamond 是一个专门设计用于评估大型语言模型(LLM)在需要深度推理和领域专业知识问题上的能力的基准数据集。该数据集由纽约大学、CohereAI 和 Anthropic 的研究人员联合发布,旨在衡量模型在需要深度推理和领域专业知识问题上的能力。GPQA Diamond 数据集包含 198 道高难度的问答题,主要涵盖物理、化学、生物学和经济学等 STEM 领域。所有问题及其答案都经过领域专家的验证,确保准确性和完整性。这些问题设计为对抗性构建,防止模型依赖表面模式或记忆,强调深度理解和多步骤推理能力。在评估中,模型需要生成准确且完整的答案,主要评估指标为准确率。GPQA Diamond 为研究人员提供了一个具有挑战性的基准,用于评估和改进大型语言模型在复杂推理任务中的表现。 MATH-500 评测集 MATH-500 是一个包含 500 道数学题目的评测集,旨在全面考察大型语言模型(LLM)的数学解题能力。该评测集涵盖了多种数学主题,设计用于评估模型在数学推理和问题解决方面的表现。...

February 8, 2025 · 2 min · fisherdaddy

DeepSeek 模型发布和重大事件时间线一览

这里整理一下 DeepSeek 重大里程碑事件,部分内容参考 DeepSeek 在 HuggingFace 的官方空间。为了方便预览和美观,我做了一个网页版,大家可自行取用。 2023年7月:DeepSeek 公司成立 核心功能:致力于 AGI 功能介绍:由知名量化资管巨头幻方量化创立,其掌门人梁文锋是 DeepSeek 的创始人。 2023年11月:开源 DeepSeekLLM 7B 和 67B 的 Base 和 Chat 模型 核心功能:DeepSeek LLM 67B Base 在推理、代码、数学和中文理解等多个领域超越了 Llama2 70B Base。 功能介绍:DeepSeek Coder 是一系列从零在包含 87% 代码和 13% 自然语言的 2T tokens 数据集上从头开始训练的代码语言模型,它旨在提升代码编写的效率和质量,MIT 许可并允许商业用途。 项目地址:https://github.com/deepseek-ai/DeepSeek-LLM 论文地址:https://arxiv.org/abs/2401.02954 论文摘要 本文深入研究了大规模语言模型(LLMs)的扩展规律,并针对两种常用的开源配置 7B 和 67B 模型,提出了独特的发现,以促进模型扩展。研究团队基于长期主义视角,推出了开源语言模型项目 DeepSeek LLM。为了支持预训练,他们构建了一个包含 2 万亿 tokens 并持续扩展的数据集。通过对 DeepSeek LLM Base 模型进行监督微调(SFT)和直接偏好优化(DPO),最终得到了 DeepSeek Chat 模型。评估结果表明,DeepSeek LLM 67B 在一系列基准测试中超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出。此外,开放性评估显示,DeepSeek LLM 67B Chat 的性能优于 GPT-3....

February 8, 2025 · 10 min · fisherdaddy

用 Unsloth 在本地训练你自己的 R1 推理模型 • Unsloth

本文介绍了 Unsloth 的一项新功能,该功能使用户能够在本地训练自己的 R1 推理模型。这项创新利用 Group Relative Policy Optimization (GRPO) 算法,显著降低了训练推理模型所需的 VRAM,使得在消费级 GPU 上,如仅需 7GB VRAM 的情况下,复现 DeepSeek R1-Zero 的 “顿悟时刻” 成为可能。Unsloth 旨在让更多开发者能够便捷地将标准模型转化为具备完整推理能力的模型,并应用于定制化奖励模型和自动生成推理过程等多种场景。此外,Unsloth 还集成了 vLLM,进一步提升了吞吐量并降低了 VRAM 消耗,为用户提供更高效的微调和推理体验。 GRPO 算法引入 Unsloth: Unsloth 基于 DeepSeek R1 的研究,在自身平台中引入了 GRPO 算法,使用户能够训练模型自主学习分配更多思考时间,无需人工反馈。 VRAM 效率提升: Unsloth 优化了 GRPO 流程,使其 VRAM 占用比 Hugging Face + FA2 减少 80%,仅需 7GB VRAM 即可在 Qwen2.5 (1.5B) 模型上复现 R1-Zero 的 “顿悟时刻”。 广泛的模型兼容性: Unsloth 支持将参数量高达 150 亿的模型(如 Llama 3.1 (8B), Phi-4 (14B), Mistral (7B), Qwen2....

February 7, 2025 · 4 min · fisherdaddy

【科普】人工智能中的“量化”,到底是什么?

在人工智能蓬勃发展的今天,深度学习模型已经在图像识别、自然语言处理和自动驾驶等领域取得了令人瞩目的成绩。然而,随着模型规模不断增大,如何在保证模型性能的同时降低计算资源和能耗,成为了研究者和工程师们面临的重要课题。量化(Quantization)技术正是在这一背景下应运而生,并在实际应用中发挥了巨大作用。本文将带你深入了解人工智能中的量化技术,探讨它的原理、优点以及所面临的挑战。 什么是量化? 量化,顾名思义,就是将连续的数值转换为有限的、离散的数值集合。在计算机系统中,数据通常以二进制形式存储和处理。传统的深度学习模型中,神经网络的参数(如权重和激活值)通常使用 32 位浮点数(float32)表示,这样既能保证计算精度,也便于训练和优化。但在模型推理(Inference)阶段,对于一些对精度要求没有那么高的场景,我们可以用更低位数的数据来表示这些参数,这就是量化技术的基本思想。 1. 高精度浮点数 数据类型 位宽 符号位 指数位 尾数位 存储占用 主要特点 FP64(双精度) 64 1 11 52 8 字节 超高精度,适用于科学计算,存储和计算成本高 FP32(单精度) 32 1 8 23 4 字节 计算精度和存储占用均衡,深度学习主流格式 FP16(半精度) 16 1 5 10 2 字节 存储占用更低,适用于加速推理和混合精度训练 bfloat16 16 1 8 7 2 字节 与 FP32 共享相同指数位,训练稳定性更强 2. 低精度整数 数据类型 位宽 符号位 数值范围 存储占用 主要应用 int8 8 ✅ -128 ~ 127 1 字节 量化神经网络,提高推理速度,降低功耗 uint8 8 ❌ 0 ~ 255 1 字节 适用于正数数据的量化,提高数值范围 int16 16 ✅ -32,768 ~ 32,767 2 字节 需要更大范围整数时使用,深度学习较少用 int4 4 ✅ -8 ~ 7 0....

February 6, 2025 · 2 min · fisherdaddy