FisherAI

ReAct：一种将推理与行动相结合的语言模型新范式

大型语言模型（LLM）在许多任务上表现出惊人的能力。一方面，通过“链式思维”提示（Chain-of-Thought, CoT）让模型在给出答案前先生成一系列逐步推理，可以大幅提升模型在数学推导、常识推理等方面的表现。但仅靠内部推理的模型缺乏对外部世界的连接：模型只能依据内部存储的知识进行推理，无法动态获取新信息或校正认知偏差。另一方面，近期也有工作探索让预训练语言模型用于规划和执行动作，例如在文本游戏、网页导航、机器人控制等交互环境中让模型输出动作序列。这种“行动”范式侧重于从文本上下文映射到操作命令，却缺乏高层次的抽象推理和长期规划，模型也没有显式的工作记忆去支持长序列决策。现实中，人类解决复杂问题时往往将内在思考与外在行动交替进行：我们会一边在脑海中思考步骤、一边与环境互动获取所需信息或实施方案。例如做菜时，我们会在每个步骤之间用语言自我提醒下一步计划，必要时查阅食谱或网上搜索信息，然后继续动手实践。受此启发，谷歌大脑团队提出了一种新方法 ReAct（Reason + Act），希望让语言模型也能像人类一样边“想”边“做”。简单来说，ReAct 让模型在解决问题时同时产生推理轨迹（reasoning traces，即链式思考过程）和动作指令（actions，用于查询工具或与环境交互），二者交替进行，互相协作。这种推理与行动的紧密融合被称为“ReAct”范式，它显著区别于传统只推理或只行动的提示方法，展现出更强的决策能力和可解释性。 ReAct 的核心思想与传统提示方法的区别 ReAct 方法的核心思想在于：将“推理”（Reasoning）和“行动”（Acting）这两种能力融合到同一个语言模型的输出序列中。模型不再只是给出最终答案或纯粹的一串动作命令，而是以交替的方式生成**“思考”和“行动”**两种内容。例如，模型面对一个问题时，可能先输出：“我需要先查找相关信息”（这是推理的一部分），接着输出一个具体行动如“搜索[X]”，然后根据检索到的结果继续推理，接着再执行下一个行动，如此反复，直到得到答案。这一范式与传统提示方法有显著区别：区别一：链式思维提示 vs ReAct：传统的链式思维(CoT)提示让模型在回答前生成一段隐藏的推理过程，但这个推理只是内部文字，不会与外部交互。模型只能依据已有知识推理，一旦遇到知识盲点可能产生谬误或幻觉内容。相比之下，ReAct 会在推理过程中引入动作，允许模型在需要时主动查询外部知识库或环境，获取最新的信息来支撑后续推理。这样模型的思考过程不再是闭门造车，而是可以实时查证和更新。区别二：动作规划提示 vs ReAct：以往让模型执行动作的方案（例如让模型直接输出操作序列去玩游戏或控制机器人）通常没有显式的推理过程。模型根据当前观察直接产出下一个动作，缺少对全局目标的抽象思考，也没有记录“为什么”采取某行动的理由。这容易导致模型在复杂任务中迷失方向或无法长期规划。ReAct 则在动作之间插入推理步骤，模型会用自然语言总结现状、规划策略，并将这些中间思路保留下来作为“内在记忆”，指导后续行动。因此，ReAct 既有链式推理的深度思考，又有动作执行的环境交互，两者相辅相成。简而言之，传统提示要么让模型闷头“想”（CoT），要么让模型不加思索地“做”（直接行动），而 ReAct 让模型一边“想”一边“做”，形成闭环。这种协同带来的好处是明显的：研究表明，将推理与行动相结合的 ReAct 模型往往优于仅有推理或仅有行动的模型，在各种任务上取得更好的效果。图1：传统方法 vs ReAct 的对比。上方两图：仅推理（左）和仅行动（右）的模式。下方：ReAct 模式中，语言模型（LM）既产生推理轨迹又发出动作指令，与外部环境（Env）交互，形成一个闭环。推理过程更新模型内部状态，行动则引入环境反馈，两者协同工作。推理与行动如何在 ReAct 中结合那么，ReAct 是如何实现推理和行动的交替结合的呢？其关键在于对语言模型的输出格式和推理流程进行了精心设计。具体来说，ReAct 将模型解决任务的过程表示为一个由**“Thought”（思考）、“Action”（行动）和“Observation”（观察结果）交替组成的序列**。模型通过Few-shot提示学习，在同一段对话中按照这种格式进行推理和操作：思考（Thought）：模型用自然语言描述当前它对任务的理解、下一步计划或需要的信息。例如面对一个疑问，模型可能在Thought中自问：“现在我需要找出X的出生年份，或许可以先搜索X的维基百科页面。”这些推理文字不会直接影响外部环境，但会更新模型内部的工作记忆，帮助模型理清思路和规划后续动作。行动（Action）：基于上一步的思考，模型决定执行一个具体动作。动作通常以特殊格式表示，例如Search[...]表示搜索查询，Lookup[...]表示在当前文档中查找关键词，Goto[...]表示导航到某处，或者Finish[...]用于给出最后答案等。这一步会提交给外部环境或工具执行，比如调用一个知识库API、浏览网页或与游戏环境交互。可以把Action看作模型对外部的指令输出。观察（Observation）：外部环境根据模型的Action返回结果，这成为模型可以“看到”的新信息。比如调用维基百科API后，会返回相应条目的内容摘要；在游戏环境中执行动作，会返回环境的新描述状态。Observation相当于模型从外部获取到的反馈，这会被附加到模型的上下文中。模型会重复交替产生Thought → Action → Observation的步骤，直到达到解决任务的条件。最终，模型会通过一个特殊的Finish[答案]动作来结束任务并给出答案。在这个过程中，推理和行动互相促进： **推理指导行动：**模型通过Thought总结当前需要什么信息或下一步怎么做，然后据此选择合适的Action。这避免了盲目动作，使每一步操作都有明确的目的。例如模型可能推理出“要回答这个问题，我需要先找人物X的出生年份”，于是执行Search[X 出生年份]的动作。 **行动反馈丰富推理：**每次Action得到Observation后，模型会在随后的Thought中消化这条新信息，更新自己的知识和计划。例如当搜索结果返回某人物出生于“1980年”，模型在下一个Thought中会记下这一点，并进一步推理下一步需要的信息。如果发现搜索结果不相关，模型也可以在Thought中反思并调整策略。通过这种循环，模型可以一边获取新信息一边调整推理，就像人类在解决问题时不断地“边查边想”一样。值得一提的是，在ReAct中推理内容不会直接对环境生效，因此模型可以放心地进行假设和中间推演；而只有明确标记为Action的内容才会执行，确保与外部交互的操作是经过思考决定的。这一机制让模型能够处理更长的推理链和复杂的目标，因为它可以随时通过行动获取所需的信息，并通过推理整合这些信息。结合推理和行动带来的能力提升融合推理与行动的ReAct方法，为语言模型带来了多方面的能力提升：检索外部知识，减少幻想和错误：纯粹依赖训练记忆的模型在回答超出其知识范围的问题时，容易编造不准确的内容（即“幻觉”现象）。ReAct 通过引入检索行动，让模型能够实时查阅权威资料，从而显著降低了幻觉和推理链错误传递的问题。例如在回答需要多跳推理的问答任务时（如HotpotQA），仅有链式思维的模型可能基于不完整的内部知识产生错误中间结论，最终答案也偏离事实。而使用ReAct，模型可以调用维基百科API获取真实信息，不确定的推断可以及时被查证修正，其推理过程更加基于事实而非凭空想象。复杂决策能力与环境交互：对于需要多步骤决策的任务（如解谜游戏、机器人操作），ReAct 提升了模型的规划和决策能力。由于模型在行动前可以用Thought考虑整体目标、分解子任务，它更擅长长程规划和在意外情况下调整策略。同时，每一步动作的观察反馈让模型对环境变化做出反应，避免一条路走到黑。例如，在ALFWorld这样交互式文本游戏中，纯“行动”模型往往缺乏全局观，可能在复杂任务中漏掉关键步骤。而ReAct模型会在关键节点插入推理，总结当前进展和下步目标，使得成功率大幅提高。工具使用灵活性：ReAct 框架下，动作可以视作调用外部工具的接口。这意味着模型不仅限于检索知识，还可以执行各种操作，例如计算、API查询、数据库检索、网页点击等等。通过Few-shot示例教会模型不同的动作语法，LLM能够灵活地调用多种工具来完成任务。这种能力拓展使得语言模型可以解决更广泛的问题，例如在WebShop任务中，模型需要像用户一样浏览购物网站查找商品并做出购买决策。ReAct 提供了结构化的方式让模型运用工具：推理步骤决定何时用何种工具，行动步骤实际执行工具操作。这种设计相比黑箱式的工具使用更透明可控，也更高效。过程可解释性与可控性：由于ReAct让模型显式地输出思考过程，每一步推理和决策都有据可循，整个任务求解轨迹对人类来说是透明的。这种可解释性带来两个好处：一是增加了可信度，因为我们可以看到模型依据哪些事实和逻辑得到最终答案，而不是凭直觉直接给出结果。二是便于诊断和纠偏：如果模型中途走偏，人类可以检查其Thought发现问题所在，并及时干预。例如研究者展示，在模型解ALFWorld任务时，只需人工修改两处错误的思考文字，模型后续的行为就能被纠正并成功完成任务。这种人类在环的干预在传统模型中难以实现，因为大多数模型没有显式的中间决策可供检查。借助ReAct，我们可以把人类的常识和监督直接融入模型的推理过程中，实现更高程度的人机协作。综上，ReAct 将LLM的推理优势和工具交互能力融为一体，使模型在准确性、决策力、灵活性和可解释性等方面都得到提升。这种综合能力在很多任务中转化为了性能上的领先。提示设计的技术细节与示例要让语言模型学会ReAct的模式，关键在于设计合适的提示（prompt）。研究中采用的方法是提供**少数几个示例（few-shot）**来演示如何同时进行推理和行动。一个ReAct提示通常包括如下要素：任务示例：首先展示1-2个完整的任务求解案例，每个案例从问题到答案的全过程都用Thought/Action/Observation的形式写出。人工示范的推理与动作：在这些示例中，研究人员手工编写了合理的思考过程和相应的动作序列。例如在一个问答示例中，Thought可能写道“这个问题涉及人物X的生平，我需要查找X出生于哪一年”，接着Action示范Search[X]去搜索X，Observation则列出搜索结果的一部分，然后下一个Thought分析结果是否包含所需信息，如没有则决定换个关键词搜索，依此类推，直到Action给出Finish[答案]。环境反馈的体现：示例中每次Action之后，都紧跟着展示该动作的结果（Observation）。这教会模型在产生下一步思考时，要将新获取的信息纳入考虑。例如：“Observation: ‘X出生于1980年。’”然后Thought可以利用这一事实继续推理。通过上述few-shot示例，模型在提示中学习到输出格式（Thought、Action、Observation的顺序）以及推理-行动协同的策略。当提示之后实际提出新问题时，模型就会模仿示例的格式和思路来作答。...

如何看待 AI 智能体框架 • Harrison Chase

本文是 LangChain CEO Harrison Chase 在 OpenAI 发布了一份关于构建智能体 ( agents ) 的指南之后写的一篇文章，这篇文章主要用于指出 OpenAI 的智能体指南中的一些误导性观点，并给出了自己的一些看法。定义区分：工作流 (Workflows)：通过预定义代码路径编排 LLM 和工具，可预测性高。代理 (Agents)：LLM 动态指导自身流程和工具使用，灵活性高。作者更倾向于 Anthropic 对此的精确技术定义。代理失败原因：LLM 表现不佳通常源于上下文问题，如：系统提示不完整、用户输入模糊、工具描述/访问不当、未传入正确上下文、工具响应格式不佳等。 LangGraph 特点：提供底层编排能力（节点 Nodes 和边 Edges）。支持声明式（图结构）和命令式（节点/边内部逻辑）编程。内置持久化层，支持容错、短期/长期记忆。支持“人在回路”（human-in-the-loop）和“人监控回路”（human-on-the-loop）模式。内置流式处理（streaming）支持。与 LangSmith 集成，提供调试、评估和可观测性。框架价值：除了代理抽象，好的框架还应提供：短期/长期记忆管理、人机交互支持、流式输出、调试/可观测性、容错机制等。这些价值对工作流和代理都适用。对 OpenAI 指南的批评：作者认为 OpenAI 的指南：错误地将 LangGraph 等声明式方法描绘为繁琐且不灵活。混淆了“声明式 vs 命令式”与“工作流 vs 代理”以及“抽象”的概念。声称 Agents SDK 等“非声明式”（实为抽象）方法更灵活、“代码优先”，作者认为这与事实相反。未能抓住构建可靠代理系统的核心挑战（上下文控制）和框架应提供的核心价值（可靠的编排层）。多代理系统：关键在于代理间的通信机制，工作流常用于组织多个代理的协作。框架对比：作者提供了一个电子表格链接，用于比较 LangGraph, Agents SDK, CrewAI, AutoGen 等多种框架在不同维度（如编排 vs 抽象、特性支持）上的表现。原文：如何看待 AI 智能体框架总结：...

下半场 • Shunyu Yao

本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章，主要探讨了人工智能 (AI) 领域正经历一个重要的转折点，从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。 AI 发展的阶段性转变： AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。上半场的特征：重点是开发新的训练方法（如 Transformer）和模型（如 AlexNet, GPT-3），并通过在基准测试（如 ImageNet, WMT'14）上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。下半场的催化剂：一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟，特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。下半场的焦点：由于现有方法足以解决许多基准问题，未来的重点应转向定义 AI 应该做什么，以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。思维模式的转变：从业者需要像产品经理一样思考，质疑现有评估假设（如自主性、独立同分布 i.i.d.），并创建更贴近现实应用场景的新评估范式。原文：下半场 tldr: 我们正处于人工智能 (AI) 的中场休息。几十年来，人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效：从击败国际象棋和围棋的世界冠军，到在 SAT 和律师资格考试中超越大多数人类，再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新：搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。那么现在有什么突然不同了呢？用三个词来说：强化学习 (RL) 终于奏效了。更准确地说：强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累，我们找到了一个行之有效的配方，可以使用语言和推理来解决各种强化学习任务。即使在一年前，如果你告诉大多数人工智能研究人员，一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难，许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。然而，这一切成为了现实。那么接下来会发生什么？人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代，评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X？”，而是问“我们应该训练人工智能做什么，以及如何衡量真正的进步？”。为了在这个下半场取得成功，我们需要及时转变思维模式和技能组合，这些可能更接近产品经理所需的能力。上半场为了理解上半场，看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么？我试了试斯坦福 224N 的测试题，答案并不令人意外：Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处？它们提出了一些基础性的突破来训练更好的模型。同时，它们通过在一些（显著的）基准测试上展示改进成功发表了论文。然而，存在一个潜在的共性：这些“赢家”都是训练方法或模型，而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet，其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如，Transformer 的主要基准测试是 WMT’14，其工作坊报告有约 1,300 次引用，而 Transformer 有超过 160,000 次引用。...

生成式 AI 项目的自动化评估的迭代构建法 • Andrew Ng

本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章。Andrew Ng 指出，在开发生成式 AI （ GenAI ）应用时，许多团队过晚引入自动化评估（ evals ），并过度依赖人工评估，因为他们将构建 evals 视为一项庞大的前期投资。作者提倡采用迭代方法来构建 evals ，即从简单、快速的版本开始，然后逐步改进，从而更早地利用自动化评估加速项目进展。延迟原因：构建 evals 被视为需要大量前期工作（如创建数百甚至上千示例、设计和验证指标），且 LLM-as-judge 等现有技术实施细节复杂，让人觉得不如暂时依赖人工评估。迭代构建 evals 的方法：从小规模开始：可以从极少数示例（例如 5 个）开始，并根据需要逐步增加或删减。评估部分维度：初期可以只关注部分核心性能指标，或那些与整体性能相关的、易于测量的指标，无需追求一开始就全面覆盖。具体示例：对于客服机器人，初期可只评估是否正确调用了退款 API ，暂不评估回复消息的质量。对于产品推荐机器人，初期可只检查是否提及了正确的产品，而不必关心具体描述方式。双重迭代循环：开发过程包含两个并行的迭代：迭代改进 AI 系统本身（依据自动化 evals 和人工判断）。迭代改进 evals 本身，使其评估结果更贴近人工判断。成功 evals 的标准：如果人工判断系统 A 显著优于 B，则 evals 应给予 A 显著更高的分数。如果 A 和 B 性能相似，则 evals 分数也应相近。 Evals 的“错误分析”：当 evals 对系统 A 和 B 的排序与人工判断不符时，应视其为 evals 本身的“错误”，并对其进行调整优化，使其能正确反映系统间的相对性能。最终建议：尽管项目初期依赖人工判断是可行的，但尽早引入简单的自动化 evals 并持续迭代，能更有效地加速 GenAI 应用的开发进程。原文 Dear friends,...

介绍一下 OpenAI o3 和 o4-mini

OpenAI 于 2025年 4 月 17 日推出了 o3 和 o4-mini，这两款模型在智能和能力上都代表了显著的进步，特别是它们能够在其响应前进行更长时间的“思考”，并且首次实现了对 ChatGPT 内所有工具（如网页搜索、使用 Python 进行数据分析、视觉输入推理、图像生成等）的自主、智能调用和组合。新模型发布: OpenAI 推出了其 o 系列中迄今为止最智能、能力最强的模型——o3 和 o4-mini。核心能力提升: 这两款模型被训练用于更深度的推理（“思考更长时间”），显著提升了 ChatGPT 的能力。全面的工具集成: 模型首次能够自主地（agentically）决定何时以及如何使用 ChatGPT 内的所有工具（网络搜索、代码执行、视觉分析、图像生成等）来解决复杂问题。迈向智能代理: 这是向更具自主性的 ChatGPT 迈出的一步，使其能够独立代表用户执行多方面任务。性能新标杆: 结合了顶尖的推理能力和全面的工具使用，使得模型在学术基准测试和现实世界任务中表现显著增强，树立了智能和实用性的新标准。模型定位: o3 是功能最强大的前沿模型，适用于复杂分析；o4-mini 则为速度和成本效益进行了优化，适合需要推理能力的大容量、高吞吐量任务。介绍 OpenAI o3 和 o4-mini 我们迄今为止最智能且功能最强大的 AI 模型，并赋予了它们完整的工具使用权限今天，我们发布 OpenAI o3 和 o4-mini，这是我们 o 系列模型中的最新成员，这些模型经过训练，可以在响应之前进行更深入的思考。它们是我们迄今为止发布的最智能的 AI 模型，代表着 ChatGPT 在能力上的一次飞跃，惠及从普通用户到高级研究人员的每一个人。我们的推理模型首次能够以智能代理式地使用和组合 ChatGPT 中的每一个工具——包括网络搜索、使用 Python 分析上传的文件和其他数据、对视觉输入进行深入推理，甚至是生成图像。关键在于，这些模型经过专门训练，能够判断何时以及如何使用工具，以正确的输出格式（通常在一分钟内）生成细致且周到的答案，从而解决更为复杂的问题。这使得它们能够更有效地处理多方面的问题，朝着更具智能体 (AI Agent) 能力的 ChatGPT 迈出了一步，让 ChatGPT 能够代表您独立执行任务。这种最先进的推理能力与完整工具访问权限的结合，转化为在学术基准和实际任务中性能的显著提升，为智能和实用性都树立了新的标杆。...

介绍一下 GPT-4.1 系列模型

OpenAI 于 2025年 4 月 15 日推出了 GPT-4.1 系列 API 模型：GPT-4.1、mini 及 nano。相较于 GPT-4o 和 GPT-4o mini，这些模型在各方面都实现了超越，尤其在代码生成和指令执行上的提升尤为显著。不仅如此，它们还拥有更大的上下文窗口，最多可处理 100 万个 Token，并能凭借更出色的长文本理解能力，充分利用这些上下文信息。同时，它们的知识库也已更新至 2024 年 6 月。新模型发布: OpenAI 推出了 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 三款 API 专用模型。性能提升: 新模型在编码、指令遵循和长文本理解能力上全面优于 GPT-4o 和 GPT-4o mini。长文本支持: 所有新模型均支持高达 1 million tokens 的上下文窗口，并提升了长文本理解的可靠性。成本与效率: 新模型旨在以更低的成本和延迟提供更优的性能，特别是在 GPT-4.1 mini 和 nano 版本上体现。应用场景: 改进的性能使新模型更适用于构建复杂的 agent 系统，处理如软件工程、文档分析和客户服务等任务。模型可用性: GPT-4.1 系列模型仅通过 API 提供。ChatGPT 中的 GPT-4o 已逐步整合相关改进。模型弃用: GPT-4.5 Preview 将在 July 14, 2025 被弃用，开发者需迁移至 GPT-4....

Llama 4 综合评估：基准表现、实际能力与争议

Meta 作为人工智能领域的关键参与者，持续通过其 Llama 系列模型推动开源大语言模型的发展。继 Llama 3 取得显著成功后，Meta 于 2025 年 4 月 5 日推出了备受期待的 Llama 4 系列模型。Llama 4 引入了混合专家（MoE）架构和原生多模态等关键技术革新，Meta 公布的基准测试数据显示其在多个指标上表现优异，甚至超越了一些领先的闭源模型。然而，大量来自开发者社区和独立测试者的实际应用反馈却指出，Llama 4 在编码、推理等方面的实际表现并未达到预期，甚至不如一些参数量更小的模型。这种基准分数与实测能力之间的显著差异，引发了关于 Llama 4 是否存在针对性“刷榜”以及模型真实能力的广泛讨论和质疑。今天正好 Google 更新了 DeepResearch：由原来基于 Gemini 2.0 Flash Thinking 模型，改为基于 Gemini 2.5 pro 模型（目前已公开的最强模型），结果准确率大幅提升。Google 放出来了和 OpenAI DeepResaerch 的对比评测，我也尝试了一些 case，确实比上个版本好很多。本篇文章大部分由 Gemini 的 DeepResearch 所写，我对结果进行了编排、校审和微调。 Llama 4 模型家族概览 Llama 4 系列是 Meta 推出的新一代 AI 模型，旨在支持整个 Llama 生态系统，并被 Meta 称为其迄今最先进的模型。该系列引入了混合专家（MoE）架构和原生多模态设计。目前已发布和预告的模型包括： Llama 4 Scout: 这是一款轻量级、高效率的模型，拥有 109B 总参数和 16 个专家，每次推理激活 17B 参数。Scout 的突出特点是其业界领先的 1000 万 token 上下文窗口，远超 Llama 3 的 128K。它被设计为可在单个 NVIDIA H100 GPU 上通过 Int4 量化高效运行，适用于通用 AI 任务，尤其擅长处理超长文档摘要、大规模代码库推理和个性化任务。Meta 称 Scout 是其同类产品中“世界上最好的多模态模型”。 Llama 4 Maverick: 这款模型同样拥有 17B 激活参数，但总参数量达到 400B，并配备了 128 个专家。Maverick 被定位为通用主力模型，特别适用于助手和聊天场景，在图像理解、创意写作和多语言处理方面表现出色。它支持 100 万 token 的上下文窗口，并可在单个 H100 主机（或多 GPU）上运行。Meta 称 Maverick 在多个基准测试中击败了 GPT-4o 和 Gemini 2....

赋能于民：大语言模型如何改写技术普及的剧本 • Andrej Karpathy

本文来自 Andrej Karpathy 在 X 上发布的一篇文章《Power to the people: How LLMs flip the script on technology diffusion 》。核心观点是，大型语言模型（ LLMs ）的技术扩散模式颠覆了传统技术自上而下（从政府/企业到个人）的传播路径。 LLMs 目前为普通个体带来了前所未有的、不成比例的巨大利益，其影响在企业和政府层面反而相对滞后。这是因为 LLMs 提供了广泛但相对浅显的能力，极大地赋能了缺乏多领域专业知识的个人；而组织机构在利用这种新技术时，则面临着整合复杂性、高风险以及内部惯性等挑战。尽管当前 LLMs 的普惠性是历史性的，但未来的技术发展和成本结构可能改变这种“利益分配”格局。传统技术扩散：历史上，变革性技术（如电力、计算机、互联网、 GPS ）通常遵循从政府/军事到企业再到个人的“自上而下”路径，因为早期技术稀缺、资本密集且需要专业知识。 LLMs 的独特路径： LLMs （以 ChatGPT 为例）显著逆转了该模式。 ChatGPT 成为史上增长最快的消费应用，拥有 4 亿周活跃用户，广泛用于写作、编码、翻译、学习、研究等个人任务。个体受益显著的原因： LLMs 大幅提升了个人在多个陌生领域的能力水平。使用门槛极低：成本低廉（甚至免费）、快速、易于通过网络或本地设备访问，并支持自然语言交流。企业/政府受益相对有限的原因：能力匹配度： LLMs 提供的是“准专家级”的广泛但浅显、可能出错的能力。而组织的核心优势在于整合深度专业知识。 LLMs 更多是提升现有专家的效率，而非带来颠覆性改变。复杂性与风险：组织运营涉及更高的复杂性（系统集成、遗留系统、安全、隐私、合规）和更低的容错率，难以简单应用 LLMs ，且“幻觉”等错误的代价高昂。组织惯性：企业文化、政治因素、沟通成本、培训挑战和官僚主义阻碍了对这种新型、多才多艺但尚不完全可靠工具的快速采纳。当前的普惠性：目前，普通人（ Mary , Jim , Joes ）比大型组织（如 Google 或美国政府）更能体验到 LLMs 带来的改变。前沿模型如 GPT 4o 对所有人（包括 Bill Gates ）都同样可及。未来展望与不确定性： LLMs 的持续影响取决于性能的提升。 “利益分配”格局可能改变。如果未来获取更强 AI 能力需要高昂成本（性能与资本支出挂钩），大型组织和富裕个体可能重新获得优势（例如，使用 GPT-8-pro-max-high 对比 GPT-6 mini ）。影响因素包括：扩大性能差距的技术（如规模扩展、模型集成）和缩小差距的技术（如模型蒸馏）。作者的感慨：当前的局面——强大的 AI （ ChatGPT ）几乎一夜之间免费普及到每个人的口袋里——是独特且出乎意料的，与许多科幻设想不同。引用并修正 William Gibson 的名言：“未来已来，且分布惊人地均匀”。作者对此表示赞赏（“权力归于人民”）。原文：赋能于民：大语言模型如何改写技术普及的剧本变革性技术通常遵循自上而下的扩散路径：它们往往起源于政府或军事部门，然后逐渐普及到企业，最终进入个人手中——比如电力、密码学、计算机、航空、互联网或 GPS。这种发展路径似乎是理所当然的，因为新兴的强大技术在早期通常比较稀缺，需要大量的资金投入，而且使用它们还需要专业的技能。...

Shopify 使用 AI 已成为基本要求 • Tobias Lütke

Shopify CEO 发内部全员邮件，强调 AI 带来的巨大创业机遇，同时也要求公司全员都必须学习和应用 AI，把使用 AI 变为每个员工的一个基本要求，并计入绩效考核。还提到，如果后面谁想要 HC，必须要先论证为什么不能通过 AI Agent 来解决。 AI 使用成为基本要求：在 Shopify ，熟练运用 AI 不再是可选项，而是对所有员工的基本工作要求。这被视为跟上公司发展（类比“红皇后赛跑”）和个人职业发展的必要条件，不学习 AI 等同于停滞和失败。 AI 是强大的生产力倍增器： AI 工具被视为能将个人和团队的产出提升 10 倍甚至 100 倍的“倍增器”，能够帮助解决以前看似不可能完成的任务。拥抱 AI 符合核心价值观：积极学习和应用 AI 与 Shopify 的核心价值观“成为持续学习者”（ Be a Constant Learner ）和“在变革中茁壮成长”（ Thrive on Change ）紧密相连。 Shopify 的未来与 AI 深度绑定：公司致力于利用 AI 重新定义创业模式，并将 AI 深度整合到产品路线图和日常工作中，以更好地服务商家。使用 AI 已成为基本要求 Tobias Lütke ✅ 3月20日团队成员们，我们正在进入一个前所未有的时代，未来涌现的商家和创业者数量可能超过历史上的任何时期。我们一直在努力降低创业的复杂度，让更多人可以将其作为职业选择。在创业的每一步，都充满了需要技巧、判断力和知识的决策。现在，AI 不仅能提供咨询，还能直接帮助我们的商家完成工作，这无疑是一个飞跃式进步。在 Shopify，我们的任务是打造一流的平台，助力大家创建未来的卓越企业。为此，我们必须保持技术领先，提供最佳工具，帮助商家取得超出他们想象的成功。而要做到这一点，我们必须走在最前沿。在 Shopify，主动使用 AI 已成为基本要求也许你们已经开始这样做，甚至觉得这份备忘录有些多余。如果是这样，你们已经在使用 AI 作为思考伙伴、深度研究助手、评论员、导师或结对编程伙伴。我个人也在频繁使用 AI，但即使如此，我也觉得仅仅触及了皮毛。AI 对工作方式的改变是我职业生涯中所见过的最快速的。我一直对 AI 抱有极大的热情，这一点大家应该很清楚：在每周的视频、播客、全体员工大会以及 Shopify 峰会上，我都曾多次提到 AI！去年夏天，我利用 AI 智能体来准备我的演讲，并向大家介绍了我的经验。我这样做是为了鼓励大家积极尝试 AI，消除任何对 AI 重要性的疑虑。很多同事都积极响应，我们都对 AI 所展现出的强大能力感到惊叹，它能够增强我们的技能、提升我们的工作效率，并弥补我们的不足。...

Llama 4 系列：原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职，Llama 就是她主导的项目，很多人以为 Llama 4 难产了，没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型，该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型，它们首次采用了专家混合 (MoE) 架构，并具备处理文本、图像和视频的原生多模态能力，同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout：拥有 17B 活跃参数和 16 个专家 (109B 总参数)，可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick：拥有 17B 活跃参数和 128 个专家 (400B 总参数)，可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash，在推理和编码方面与 DeepSeek v3 相当，但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth：“教师”模型，拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数)，仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....