FisherAI

模型即产品 • Alexander Doria

大模型时代我一直有一个观点，即“模型即应用”，这篇由 pleias 联合创始人 Alexander Doria 所写的文章也在说阐述类似的逻辑，所以我把它翻译了一下分享给大家。文章的核心观点是，人工智能 (AI) 发展的下一个阶段将以 “模型即产品” 为中心。过去几年关于 AI 发展方向的猜测，如智能体、推理器和多模态，都指向了模型本身的重要性日益提升。当前的研究和市场发展趋势都支持这一观点，预示着模型提供商将不再仅仅是 API 的提供者，而是转向提供更完整、更高价值的产品和服务。 OpenAI 的 DeepResearch 和 Claude Sonnet 3.7 作为 “模型即产品” 新范式的代表，DeepResearch 不是简单的 O3 封装，而是一个完全重新训练的模型，具备内部搜索、点击、滚动和文件解析等浏览能力，能够独立完成端到端的搜索任务并生成结构化的报告。这与 Perplexity 和 Google 等的 “Deep Research” 功能有所不同，后者可能只是在现有模型基础上进行微调。 Anthropic 对智能体的定义，强调真正的智能体应该能够 “动态地指导自己的流程和工具使用，保持对完成任务方式的控制” ，即内部自主完成任务。而目前许多初创公司构建的 “智能体” 实际上是 “工作流” ，即通过预定义的代码路径编排 LLMs 和工具的系统。作者认为，自主系统的重大进展将来自于模型本身的重新设计，而不是工作流的编排。Claude 3.7 的发布以及 Pleias 在 RAG 自动化方面的尝试都印证了这一点。对于许多成功的模型 “wrapper” (封装应用) 来说，面临着 “训练或被训练” 的两难选择。大型模型提供商正在向上游应用层扩展，试图捕获更多价值，而 “wrapper” 公司可能会沦为大型模型提供商的免费市场调研和数据生成者。 Naveen Rao 预测，封闭模型提供商将在未来 2-3 年内停止销售 APIs ，转而提供带有用户界面的完整应用。...

Duolingo 成功的秘诀！

Duolingo Handbook阐述了公司在过去十四年发展过程中形成的独特运营哲学和文化基石。核心理念是构建世界上最好的教育，并使其在全球范围内普及。为了实现这个宏伟目标，Duolingo 采取了长远的眼光，重视用户长期留存和品牌建设，并坚持产品驱动，通过不断试验和快速迭代来优化产品和服务。同时，Duolingo 注重营造轻松有趣的学习氛围，并以此构建了其独特的品牌形象。长期视角 (Take the Long View) Duolingo 从创立之初就定位为一个需要数十年才能实现的长期项目。公司早期拒绝通过增加广告来快速增加收入，而是优先考虑用户体验和长期增长。在技术选择上，Duolingo 敢于投资早期但有潜力的技术，例如早期的文本转语音系统。在招聘方面，Duolingo 注重长期雇佣，寻找愿意与公司共同成长的人才。为了保持用户长期参与，Duolingo 不断完善 “Streak” 功能，并持续投入改进教学质量。即使在商业化方面，Duolingo 也坚持不以牺牲教育使命为代价，例如，付费订阅服务在去除广告的同时，仍然保证免费用户能够获得优质的学习体验。 “Duolingo Score” 和 “DET (Duolingo English Test)” 的推出也是长期视角的体现，旨在建立全球语言能力的标准。提升标准 (Raise the Bar) Duolingo 从创始人开始就对细节有着近乎苛刻的追求。公司通过明确责任制 (“Taking Ownership”) 来保证高标准，并鼓励员工通过每日使用产品 (“Dogfooding”) 和 “Shake to Report” 功能来发现和报告问题。在团队文化上，Duolingo 提倡 “对事不对人 (Hard on the Work, Easy on the People)” 的反馈文化，鼓励建设性的批评和开放的沟通。对于产品和设计，Duolingo 设定了 “有用 (Useful)”、“直观 (Intuitive)”、“有趣 (Delightful)” 和 “精致 (Polished)” 四个标准。在招聘方面，Duolingo 坚持高标准，即使长时间空缺职位，也不降低标准迁就，甚至拒绝了资深高管，因为他们缺乏 “善良 (kind)” 的品质。Duolingo 推崇 “V1s” 而非 “MVPs”，即发布的第一个版本就必须是高质量的、完善的产品，而不是半成品。快速行动 (Ship It) “快速行动 (Ship It)” 是 Duolingo 保持竞争力的关键。公司每周都会发布 iOS 和 Android 应用的新版本，并同时进行数百个实验 (“experiments”)。 “时钟速度 (Clock Speed)” 的概念被用来衡量和提升工作效率，旨在最大限度地减少决策和执行之间的间隔。为了确保资源投入到最重要的事情上，Duolingo 实行 “无情的优先级排序 (Ruthless Prioritization)”，砍掉效果不佳的项目，集中资源投入到高影响力的项目上。为了避免 “组织结构镜像产品 (shipping the org)” 的问题，Duolingo 强调从整体用户体验出发进行产品设计。公司鼓励 “实验文化 (Culture of Experimentation)”，允许试错，并从失败中学习。为了在快速行动的同时保持质量，Duolingo 引入了 “产品评审 (Product Review, PR)” 等流程，以确保决策的透明度和高效性。 “99 个坏主意 (99 Bad Ideas)” 的头脑风暴活动鼓励员工挑战传统思维，提出大胆的想法。...

介绍一下 Claude 3.7 Sonnet

Anthropic 于 2025年 2 月 25 日发布了其最新的 AI 模型 Claude 3.7 Sonnet，并称其为目前最智能的模型，也是市场上首个混合推理模型。该模型独特之处在于它既能提供近乎即时的响应，也能进行更长时间、逐步深入的思考，并且用户可以通过 API 精细地控制模型的思考时长。 Claude 3.7 Sonnet 既是普通 LLM 又是推理模型。在标准模式下，它是 Claude 3.5 Sonnet 的升级版；在扩展思考模式下，它会在回答前进行自我反思，从而提高其在数学、物理、指令跟随、编码和许多其他任务上的性能。Claude 3.7 Sonnet 的开发理念与其他推理模型不同。 Anthropic 认为，推理能力应该是前沿模型的集成能力，而不是一个完全独立的模型，就像人类使用同一个大脑进行快速反应和深入思考一样。这种统一的方法为用户创造了更无缝的体验。 Claude 3.7 Sonnet 现已在所有 Claude 计划（包括 Free, Pro, Team 和 Enterprise 计划）以及 Anthropic API, Amazon Bedrock 和 Google Cloud 的 Vertex AI 上提供。扩展思考模式在除免费 Claude 层级外的所有平台均可用。 Claude 3.7 Sonnet 的定价与其前代产品相同，为每百万输入 tokens 3 美元，每百万输出 tokens 15 美元，其中包括思考 tokens 。与 Claude 3.7 Sonnet 模型一同发布的还有 Claude Code ，这是一个用于 agentic coding 的命令行工具，目前以有限的研究预览版形式提供。 Claude Code 旨在让开发者能够直接从终端将大量的工程任务委托给 Claude 完成。...

如何高效使用 DeepSeek-R1 这种推理模型？

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南！我看了下其中有一些内容很好，翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练，能够在给出答案前进行逐步思考，这使得它们在复杂的推理任务中表现出色，例如编码、数学、规划、谜题和 AI 智能体的工作流程。对于一个问题，DeepSeek-R1 会输出其思维链/推理过程（以思考 Token 的形式），这些 Token 被包含在 <think> 标签中，以及最终的答案。由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力，因此它们的输出通常更长，计算速度也更慢，成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果推理模型（如 deepseek-r1、o1、o3-mini等）擅长根据已知信息进行逻辑推理和问题求解，而非推理模型（deepseek-v3、gpt-4o、claude-3.5-sonnet等）则更侧重于信息检索和模式匹配。下面我们提供一份指南，帮助你充分发挥 DeepSeek-R1 的性能：清晰且具体的提示语 (prompts)：使用简洁明了的语言编写指令，明确表达你的需求。复杂冗长的提示语往往效果不佳。采样参数：建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6)，以避免模型产生重复或不连贯的输出。同时，top-p (概率截断) 建议设置为 0.95。避免使用系统提示 (system prompt)：不要添加额外的系统提示语，所有指令都应包含在用户提示语中。避免使用少量样本提示 (few-shot prompting)：不要在提示语中提供任何示例，因为这会降低模型的性能。相反，请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例，请确保示例与你的提示语要求高度一致。组织你的提示语：使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。设置明确的要求：当你的请求存在特定限制或标准时，请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。无论是预算限制、时间限制还是特定的格式要求，都应清晰地概述这些参数，以便引导模型生成符合要求的回复。清晰地描述输出：详细描述你期望的输出结果。描述具体的特征或质量，以便模型生成完全符合你需求的响应，并朝着满足这些标准的方向努力。多数投票选择回复：在评估模型性能时，建议生成多个解决方案，然后选择出现频率最高的结果。避免使用思维链提示 (chain-of-thought prompting)：由于这类模型在回答问题之前会自主进行推理，因此无需指示它们“逐步思考……” 数学任务：对于数学问题，建议在提示语中添加如下指令：“请逐步进行逻辑推理，并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签：极少数情况下，DeepSeek-R1 可能会跳过思考过程，从而对模型性能产生负面影响。在这种情况下，模型输出的响应将不会以 <think> 标签开头。如果你遇到此问题，可以尝试引导模型以 <think> 标签开头。应用场景评估其他大语言模型 (Benchmarking other LLMs): 评估大语言模型响应的上下文理解能力，这在需要严格验证的领域（如法律、金融和医疗保健）中尤为重要。代码审查 (Code Review): 执行全面的代码分析，并针对大型代码库提出改进建议。战略规划 (Strategic Planning): 制定详细的计划，并根据具体的任务需求选择合适的 AI 模型。文档分析 (Document Analysis): 处理非结构化文档，并识别多个来源之间的模式和关联。信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据，非常适合 RAG 系统。歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令，并在需要时主动寻求澄清，而不是直接进行猜测。上下文和成本在使用推理模型时，至关重要的是在上下文窗口中保持足够的空间，以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token，而复杂的挑战可能需要数万个 Token。...

【科普】大模型中常说的 token 和 Tokenizer 是指什么？

在大语言模型（LLM）日益普及的今天，我们往往关注模型的参数、结构和预训练数据，但实际上，支撑这些模型顺利理解和生成语言的一个重要环节——Tokenizer，常常被人忽视。本文将带你了解大模型中 Tokenizer 的基本概念、常见技术以及它在模型性能和效率中的关键作用，同时力求既不流于表面，也不陷入晦涩难懂的技术细节。 token 和 Tokenizer 是什么？简单来说，Tokenizer 就是将连续的文本拆分成模型能处理的基本单位——Token 的工具，而 “token” 是模型理解和生成文本的最小单位。对于计算机来说，处理原始文本是非常困难的，因此我们需要一个中间层，把文字转换为一系列的数字序列（即，一个个离散的 token），这些 token 既可以是单个字符、词语，也可以是子词（subword）。而这个转换过程正是由 Tokenizer 完成的。在传统的自然语言处理中，我们可能直接按照单词或字符来分割文本；而在大模型中，常见的方法则是采用子词级别（subword-level）的分割方式。这种方式既能保证足够细致（能够捕捉到拼写变化、罕见词等信息），又不会使得词表过大，进而影响模型的效率和泛化能力。在中文中，token 通常是单个汉字（或者在某些情况下是常见词汇）。在英文中，token 通常是一个词或单词的一部分，平均而言大约 4 个字符或 0.75 个单词，但具体拆分方式依赖于采用的 tokenizer 算法。 Tokenizer 的主要方法目前大模型常用的 Tokenizer 方法主要包括： Byte-Pair Encoding (BPE) BPE 是目前最流行的子词分词算法之一。其核心思想是：从最基本的字符开始，不断将在训练语料中频繁共现的字符或子串合并为一个新的 Token，直到达到预设的词表大小。这种方式能够灵活处理词汇稀缺问题，同时对英文这种单词之间有明显分隔的语言效果很好。 SentencePiece SentencePiece 算法则不依赖于空格分词，适合处理中文、日文等没有明显分词边界的语言。它同样采用子词或字节级别的编码方式，保证了不同语言之间的一致性。由于其不依赖传统分词规则，因此在多语种模型中得到了广泛应用。其他创新方法近年来，随着大模型规模的不断扩大和应用领域的拓展，关于如何更好地进行 Tokenization 的研究也不断涌现。例如，有学者提出结合认知科学“最省力原则”构建更高效的 Tokenizer；也有工作探讨利用自适应的“Learn Your Tokens”策略，根据输入自动学习最优的分词单元。尽管这些方法尚处于探索阶段，但都表明 Tokenizer 的设计对模型的最终性能具有不容忽视的影响。 Tokenizer 对大模型的影响模型训练效率在大模型的训练过程中，Tokenizer 决定了输入序列的长度和词表大小。分词粒度过细（例如仅按字符分割）虽然能覆盖所有细节，但会导致序列变得冗长，使得 Transformer 中自注意力机制的计算复杂度呈平方级增长，从而大大增加训练时间和资源消耗；而分词粒度过粗（直接按单词分割）又可能无法有效处理罕见词或新词。因此，子词分词方法（如 BPE 和 SentencePiece）正好在二者之间取得了平衡，不仅能减少序列长度，还能保持语义信息。模型效果与泛化能力一个精心设计的 Tokenizer 不仅有助于训练速度，还能提升模型在下游任务中的表现。良好的 Tokenizer 能够保证同一语义在不同上下文下尽量映射到相似的 Token 序列，从而使模型更容易捕捉到语言中的规律和细微差别。反之，不合理的分词方式可能会使模型“误解”文本信息，导致输出不连贯甚至产生幻觉。多语言和特殊场景对于多语言大模型来说，如何构造一个既能覆盖英文又能适应中文、日文等其他语言的 Tokenizer，是一个具有挑战性的问题。研究表明，多语种 Tokenizer 往往需要更大的词表来处理不同语言的字符和词汇，但词表过大又可能影响模型效率。因此，如何在覆盖率与高效性之间取得平衡，是 Tokenizer 设计的重要课题。...

永恒的游戏 • Supercell

这篇文章是 Supercell CEO Ilkka Paananen 所写并发布到公司官网。在介绍这篇文章之前，我先给大家简单介绍一下这家公司，大家还记得前几年流行的“中台”这一概念吗？就是受到这家公司的启发而提出的。2015年中，阿里巴巴集团董事会主席马云曾带领高管团队访问 Supercell，对其小团队高效运作和强大中台支持的模式印象深刻。同年12月，阿里巴巴正式启动“大中台、小前台”战略，旨在构建创新灵活的组织和业务机制，这一战略被视为传统架构的一次进化，迅速引发了国内众多企业的效仿。然而随着实践的深入，许多企业发现中台战略在实施过程中存在业务边界模糊、响应速度下降、维护成本增加等问题，导致中台战略的实施效果并不理想。以阿里巴巴为例，尽管其通过中台战略在初期取得了一定成效，但随着业务的发展和市场环境的变化，阿里巴巴于2023年开始对组织架构进行调整，提出“1+6+N”的新架构，将原有的中台职能下放至各业务单元，强调业务的自主性和灵活性。不是说这个中台战略不好，而是各企业应结合自身实际，权衡中台的利弊，制定适合的组织架构方案。 Supercell 简介 Supercell 是一家总部位于芬兰赫尔辛基的移动游戏开发公司，成立于2010年5月14日。公司由 Ilkka Paananen 和 Mikko Kodisoja 等六位游戏行业资深人士创立。Supercell 以开发高质量的免费手游而闻名，其代表作品包括《卡通农场》（Hay Day）、《部落冲突》（Clash of Clans）、《海岛奇兵》（Boom Beach）、《皇室战争》（Clash Royale）和《荒野乱斗》（Brawl Stars）等。这些游戏在全球范围内广受欢迎，曾长期占据移动应用商店排行榜前列。 Supercell 的成功在很大程度上归功于其独特的企业文化和运营模式。公司采用小型团队（称为“细胞”）的工作方式，每个团队由5至7人组成，拥有完全的自主权来开发和管理自己的项目。这种扁平化的组织结构鼓励创新和快速迭代，使得团队能够迅速响应市场反馈。此外，Supercell 注重将游戏开发过程中公共和通用的素材、算法以及研发工具进行整合，构建了强大的中台（即后台支持系统），以支持各个小团队的高效开发。值得一提的是，2016年，腾讯以86亿美元的价格收购了 Supercell 81.4%的股份，成为其主要股东。这进一步加强了 Supercell 在全球游戏市场的影响力。这篇文章主要讲了什么 Supercell 在 2024 年经历了前所未有的成功和挑战。《荒野乱斗 (Brawl Stars)》表现突出，各项指标均大幅增长，证明了即使是相对“老”的游戏，只要不断改进，也能创造出“永恒的游戏”。另一方面，新游戏《爆裂小队 (Squad Busters)》虽然收入超过 1 亿美元，但未能达到预期，突显了当今 Supercell 和整个行业推出新游戏的挑战。尽管如此，2024 年对 Supercell 来说是最好的一年，活跃玩家超过 3 亿，所有游戏收入均同比增长。Supercell 强调团队独立性、承担风险和从失败中学习的重要性，并致力于通过 Spark 项目创建新的游戏团队，探索游戏领域的创新。《荒野乱斗 (Brawl Stars)》的成功：各项指标（玩家、参与度和收入）翻倍甚至更多，这归功于团队的努力、更大的团队规模带来的风险承担能力，以及公司给予的自主权和长期耐心。《爆裂小队 (Squad Busters)》的挑战：虽然收入超过 1 亿美元，但未能达到预期，反映了在竞争激烈的移动游戏市场中推出新游戏的难度。 Supercell 认为，即使面对挑战，承担风险对于创造突破性成功至关重要。公司业绩：活跃玩家超过 3 亿，所有游戏收入均同比增长，总收入创历史新高。 Spark 项目：Supercell 创建的团队孵化器，旨在邀请全球顶尖人才组建新的游戏团队。该项目通过游戏 jams 和快速原型设计来评估团队，并已启动 5 个新的游戏团队。财务数据：收入（未计递延）：28 亿欧元（30 亿美元），同比增长 77%。 EBITDA（未计递延）：8....

ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph

还记得 OpenAI 联合创始人 John Schulman 吗？他在去年 8 月份离开 OpenAI 加入了 Anthropic，然而仅仅六个月后，他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph（他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟，他也加入了 Mira 的公司）一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享，他把本次分享的文档共享到了 Google Docs 上，这次分享的内容对 AI 的初学者特别友好，先介绍了后训练的三个组成部分以及基础概念，然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题，最后推荐了后训练相关的一些论文和博客，推荐大家看看。另外，我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要，也分享一下：本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程，后训练是使基础模型 (Base Model) 转变为更像助手，并遵循正确输出格式的关键步骤，也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training)，后训练计算成本更低，迭代周期更快，并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性，并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。后训练主要包含三个组成部分：监督微调 (SFT)，用于克隆人类或专家的行为；奖励模型 (RM) 训练，用于建模人类偏好；强化学习 (RL)，使用强化学习算法根据奖励模型进行优化，并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单，仅有文本输入和文本输出。随着时间推移，功能和模型显著扩展，增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化，OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险，并频繁整合和回滚变更。...

DeepSeek 官方推荐：Deepseek-R1 模型要这样设置

DeepSeek 官方发文：“很高兴看到每个人都对部署 DeepSeek-R1 的热情！这是我们推荐的设置，以获得最佳体验。"。总结下来，官方推荐如下四点核心设置： 1. 不要设置 System prompt 2. temperature 设置为 0.6 3. 使用官方推荐的 prompt 在官方的 DeepSeek 网站与应用中，我们没有使用系统提示，而是专门设计了两个提示，分别用于文件上传和网页搜索，以优化用户体验。此外，网站与应用中的温度设置为 0.6。对于文件上传的 prompt 请按照模板创建提示词，其中 {file_name}、{file_content} 和 {question} 是参数。 file_template = \ """[file name]: {file_name} [file content begin] {file_content} [file content end] {question}""" 对于网页搜索的 prompt {search_results}、{cur_data} 和 {question} 是参数。中文 prompt search_answer_zh_template = \ '''# 以下内容是基于用户发送的消息的搜索结果: {search_results} 在我给你的搜索结果中，每个结果都是[webpage X begin]...[webpage X end]格式的，X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文，请列出所有相关的引用编号，例如[citation:3][citation:5]，切记不要将引用集中在最后返回引用编号，而是在答案对应部分列出。在回答时，请注意以下几点： - 今天是{cur_date}。 - 并非搜索结果的所有内容都与用户的问题密切相关，你需要结合问题，对搜索结果进行甄别、筛选。 - 对于列举类的问题（如列举所有航班信息），尽量将答案控制在10个要点以内，并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项；如非必要，不要主动告诉用户搜索结果未提供的内容。 - 对于创作类的问题（如写论文），请务必在正文的段落中引用对应的参考编号，例如[citation:3][citation:5]，不能只在文章末尾引用。你需要解读并概括用户的题目要求，选择合适的格式，充分利用搜索结果并抽取重要信息，生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长，对于每一个要点的论述要推测用户的意图，给出尽可能多角度的回答要点，且务必信息量大、论述详尽。 - 如果回答很长，请尽量结构化、分段落总结。如果需要分点作答，尽量控制在5个点以内，并合并相关的内容。 - 对于客观类的问答，如果问题的答案非常简短，可以适当补充一到两句相关信息，以丰富内容。 - 你需要根据用户要求和回答内容选择合适、美观的回答格式，确保可读性强。 - 你的回答应该综合多个相关网页来回答，不能重复引用一个网页。 - 除非用户要求，否则你回答的语言需要和用户提问的语言保持一致。 # 用户消息为： {question}''' 英文 prompt search_answer_en_template = \ '''# The following contents are the search results related to the user's message: {search_results} In the search results I provide to you, each result is formatted as [webpage X begin]....

Jeff Dean 和 Noam Shazeer 访谈 - 在 Google 的 25 年从 PageRank 到 AGI

本篇文章主要记录一下 Dwarkesh Patel 在 2025 年 2 月 13 日对 Jeff Dean 和 Noam Shazeer 的访谈。在开始详细记录本次访谈的核心内容之前，我想先给大家介绍一下两位嘉宾。 Jeff Dean Jeff Dean 是 Google 的首席科学家，在 Google 公司的 25 年里，他基本上参与了现代计算领域最具变革性的系统：从 MapReduce、BigTable、Tensorflow、AlphaChip 到 Gemini。他于1968年出生，早在加入 Google 之前，他曾在 DEC（数字设备公司）的西部研究实验室从事性能分析工具、微处理器架构和信息检索等方面的研究。1999年，Jeff Dean 加入 Google，当时他是公司的早期员工之一（据说他是第20号员工），并很快在 Google 的广告系统、网页爬虫、索引和查询服务系统等关键基础设施的设计与实现中发挥了举足轻重的作用。在 Google 工作期间，Dean 与同事 Sanjay Ghemawat 合作，推出了许多标志性技术： • MapReduce：一种大规模数据处理的编程模型，奠定了 Google 后续分布式系统的基础。 • Bigtable：一种面向海量结构化数据的分布式存储系统。 • DistBelief/TensorFlow：Dean 领导的分布式深度学习系统，后被重构为如今广泛应用的开源机器学习框架 TensorFlow。此外，Jeff Dean 在 2011 年参与创立了 Google Brain，致力于深度神经网络的研究，并在 2012 年成为其领导者。2018 年，他被任命为 Google AI 的负责人，而在 2023 年，随着 Google DeepMind 与 Google Brain 的整合，他又晋升为公司的首席科学家，直接负责公司整体的 AI 战略。...

OpenAI官方指南：推理模型最佳实践

本文由 OpenAI 官方文档翻译而来，介绍了推理模型 (reasoning models) 和 GPT 模型 (GPT models) 的区别，以及何时使用推理模型 (reasoning models)。 OpenAI 提供两种类型的模型：推理模型 (reasoning models)，例如 o1 和 o3-mini，以及 GPT 模型 (GPT models)，例如 GPT-4o。这两类模型的行为特性有所不同。本指南将介绍： OpenAI 的推理型模型和非推理型 GPT 模型之间的差异何时应该使用推理模型 (reasoning models) 如何有效地提示推理模型 (reasoning models) 推理模型与 GPT 模型对比与 GPT 模型 (GPT models) 相比，OpenAI 的 o 系列模型在不同任务上各有优势，并且需要的提示方式也不同。它们之间不存在绝对的优劣之分，只是擅长的领域不同。 OpenAI 训练 o 系列模型（可以称它们为“规划者”）能够花费更多时间和精力思考复杂的任务，使它们在以下方面表现出色：制定战略、规划复杂问题的解决方案、以及基于大量模糊信息做出决策。这些模型还能以极高的精度和准确性执行任务，非常适合那些通常需要人类专家才能胜任的领域，例如数学、科学、工程、金融和法律服务。另一方面，低延迟、高性价比的 GPT 模型 (GPT models)（可以称它们为“主力”）则专为直接执行任务而设计。在实际应用中，可以利用 o 系列模型来规划解决问题的总体策略，然后使用 GPT 模型 (GPT models) 执行具体任务，尤其是在对速度和成本的考量高于对完美准确性的追求时。如何选择对于你的应用场景，什么才是最重要的？...