Anthropic

AI 智能体的有效上下文工程 • Anthropic

本文由 Anthropic 应用 AI 团队撰写：Effective context engineering for AI agents。其中探讨了从提示工程 (prompt engineering) 到上下文工程 (context engineering) 的演变，并将其定位为构建高效、可控 AI 智能体的关键。文章指出，随着模型能力的增强，核心挑战已从编写完美的提示语转变为精心管理和优化输入给模型的整个信息集（即上下文）。关键细节上下文的基本构成与优化系统提示 (System Prompts)：应使用清晰、直接的语言。避免过于具体、僵化的逻辑，也要避免过于模糊、宽泛的指导。建议使用 XML 标签或 Markdown 标题来组织提示结构，使其清晰。工具 (Tools)：工具的设计应追求 token 效率和功能独立性，避免功能重叠导致智能体混淆。一个常见的失败模式是工具集过于臃肿。示例 (Examples)：提供少量（few-shot）但多样化、有代表性的示例，比罗列大量边缘案例效果更好。动态上下文管理策略即时上下文检索 (Just in time context)：智能体并非预先加载所有数据，而是在运行时使用工具（如读取文件、查询数据库）动态地将所需信息载入上下文。这种方式模拟了人类按需检索信息的习惯，实现了信息的“渐进式披露” (progressive disclosure)。混合策略 (Hybrid Strategy)：在某些场景下，可以结合预先加载部分数据和智能体自主探索，以平衡速度和灵活性。应对长时程任务的专门技术对于超出单个上下文窗口容量的长期任务（如大型代码迁移、全面研究项目），可以采用以下技术：压缩 (Compaction)：当对话接近上下文窗口极限时，让模型对现有内容进行总结和压缩，然后带着这个摘要开启一个新的上下文窗口。最简单的压缩形式是清除历史记录中原始的工具调用结果。结构化笔记 (Structured note-taking)：让智能体将关键信息、待办事项或中间结论记录到上下文窗口之外的持久化存储中（如一个 NOTES.md 文件），并在需要时重新读入。这相当于为智能体提供了外部记忆。子智能体架构 (Sub-agent architectures)：将一个复杂任务分解，由一个主智能体进行高层协调，多个专职的子智能体处理具体的子任务。每个子智能体在自己的独立上下文中完成工作，然后将精炼后的结果返回给主智能体。原文：AI 智能体的有效上下文工程发布于 2025 年 9 月 29 日上下文是 AI 智能体的一个关键但有限的资源。在这篇文章中，我们探讨了有效策划和管理为它们提供支持的上下文的策略。在应用 AI 领域，提示工程 (prompt engineering) 几年来一直是关注的焦点，之后一个新术语开始崭露头角：上下文工程 (context engineering)。使用语言模型进行构建，正变得越来越不局限于为提示找到正确的词语和短语，而是更多地回答一个更广泛的问题：“什么样的上下文配置最有可能产生我们模型的期望行为？”...

为智能体编写有效的工具 • Anthropic

本文由 Anthropic 工程师 Ken Aizawa 所写：Writing effective tools for agents — with agents。其中介绍了一系列为 AI 代理（agents）构建高效工具的最佳实践和核心原则。为非确定性的 AI 代理设计工具与为传统的确定性软件系统编写函数或 API 有着根本性的不同，需要采取一种以代理为中心、由评估驱动的迭代开发方法。关键细节 1. 构建和优化工具的流程文章提出了一个与 AI 代理协作、以评估为驱动的迭代流程：构建原型：快速搭建工具原型，并利用 Claude Code 等 AI 代理辅助编写。可以通过本地 MCP (Model Context Protocol) 服务器或桌面扩展进行测试。运行综合评估：生成任务：与 AI 代理协作，生成大量源于真实世界、具有足够复杂度的评估任务。强任务可能需要多次、甚至数十次工具调用。运行评估：通过直接调用 LLM API，在简单的代理循环中运行评估。建议让代理输出推理过程（CoT）以更好地理解其行为。分析结果：代理是发现问题的合作伙伴。通过分析其推理过程、原始交互记录以及调用指标（如冗余调用、错误率），可以发现工具的不足之处。与代理协作改进：将评估结果和记录直接输入给 Claude Code，让它分析问题并重构优化工具代码和描述，从而形成一个持续改进的闭环。 2. 编写高效工具的核心原则选择合适的工具：质量优于数量。避免简单地将每个 API 端点都包装成一个工具。应构建少数几个针对高影响力工作流程的、经过深思熟虑的工具。例如，用一个 schedule_event 工具整合查找空闲时间和创建会议等多个步骤。命名空间（Namespacing）：当工具数量增多时，使用共同的前缀（如 asana_projects_search）对相关工具进行分组，可以帮助代理在不同工具间做出正确选择，避免混淆。返回有意义的上下文：工具返回的数据应优先考虑上下文相关性，而非技术细节。使用自然语言名称（name）代替晦涩的标识符（uuid）。提供多种响应格式（如 concise 和 detailed），让代理可以根据需要选择信息的详细程度，从而控制上下文的消耗。优化令牌（Token）效率：...

构建高效的智能体 • Anthropic

文本由 Anthropic 工程师由 Erik Schluntz 和 Barry Zhang 撰写：Building effective agents，文中探讨了构建高效 AI 代理（Agent）的最佳实践。最成功的 AI 代理系统并非建立在复杂的框架之上，而是采用简单、可组合的模式。开发者应从最简单的方案（如优化单个 LLM 调用）开始，仅在确实需要时才引入更复杂的代理系统。诸如 LangGraph 等框架虽然可以简化初始开发，但也可能引入不必要的抽象层，使调试变得困难。建议开发者直接使用 LLM API，并确保理解所使用框架的底层逻辑。代理系统的核心在于 LLM 与工具的交互。因此，投入精力设计一个清晰、易于使用的“代理-计算机接口” (ACI) 至关重要，这包括编写详尽的工具文档和进行充分的测试。文章提出了一系列从简单到复杂的构建模式，从基础的“增强型 LLM”到自主代理，开发者可以根据具体需求组合和定制这些模式。关键细节代理系统的类型工作流 (Workflows)：通过预定义的代码路径来编排 LLM 和工具，具有较高的可预测性。代理 (Agents)：LLM 能够动态地指导自己的流程和工具使用，更加灵活，适用于无法预知步骤的开放式问题。核心构建模式基础模块：增强型 LLM 这是所有代理系统的基础，即一个集成了检索、工具和记忆等增强功能的 LLM。工作流：提示链 (Prompt Chaining) 将一个任务分解为一系列连续的步骤，每一步的 LLM 调用处理上一步的输出。适用于可清晰分解为固定子任务的场景。工作流：路由 (Routing) 对输入进行分类，并将其引导至专门的下游任务或模型。例如，将简单的客户问题路由到成本更低的 Claude Haiku 4.5 模型。工作流：并行化 (Parallelization) 让 LLM 同时处理一个任务的不同部分。具体可分为：分片 (Sectioning)：将任务分解为独立的子任务并行运行。投票 (Voting)：多次运行同一个任务以获得多样化的输出或更可靠的结果。工作流：协调器-工作者 (Orchestrator-workers) 由一个中央 LLM（协调器）动态分解任务，并将其分配给多个 LLM（工作者）执行。适用于子任务无法预先确定的复杂场景，如编码。工作流：评估器-优化器 (Evaluator-optimizer) 一个 LLM 负责生成响应，另一个 LLM 在循环中提供评估和反馈，以迭代方式改进输出质量。自主代理 (Autonomous Agents) 适用场景：用于解决难以预测所需步骤的开放式问题。代理能够独立规划和执行，并通过与环境（如工具调用结果）的交互来评估进展。注意事项：自主代理的成本更高，且存在错误累积的风险。因此，必须在沙盒环境中进行广泛测试，并设置适当的护栏（如最大迭代次数）。实践应用领域客户支持：代理可以通过集成工具来查询客户数据、处理退款等，将对话与实际操作相结合。编码代理：代理可以根据需求描述自主修改多个代码文件，并通过自动化测试来验证解决方案的正确性，例如在 SWE-bench 基准测试中的应用。原文：构建高效的智能体发布于 2024年12月19日...

Claude Code 最佳实践 • Anthropic

本文由 Claude Code 负责人 Boris Cherny 所写：Claude Code: Best practices for agentic coding。本文档概述了高效使用 Claude Code 这一命令行编程工具的最佳实践。Claude Code 作为一个灵活、低阶的编程助手，旨在通过提供接近原始模型的访问能力，帮助工程师将其深度集成到开发工作流中。以下是核心观点和关键实践的总结。关键细节 1. 环境定制与配置创建 CLAUDE.md 文件：在项目根目录、父/子目录或用户主目录 (~/.claude/CLAUDE.md) 中创建此文件，用于提供项目特定的上下文，如常用命令、代码规范、测试指令等。Claude 会自动加载这些信息。优化 CLAUDE.md：像优化提示词一样迭代 CLAUDE.md 文件，保持其简洁有效。可以使用 # 键快速添加指令到该文件中。管理工具权限：通过会话中选择 “Always allow”、使用 /permissions 命令或编辑配置文件，自定义工具的白名单，以在安全和效率之间取得平衡。安装 gh CLI：若使用 GitHub，安装 gh 命令行工具能让 Claude 更高效地进行创建 issue、提交 PR 等操作。 2. 扩展 Claude 的工具集利用 bash 工具：Claude 可以直接使用您环境中的 bash 工具和自定义脚本，只需告知其工具名称和用法。使用 MCP (Model Context Protocol)：通过连接到 MCP 服务器，Claude 可以使用更复杂的外部工具，如 Puppeteer 或 Sentry。自定义斜杠命令：在 ....

介绍一下 Anthropic 推出的 Agent Skills

Anthropic 最近虽然口碑差，但人才密度还是高，继 MCP 之后他们又新推出来 Agent Skills，这个思路非常好，既给了 Agent 确定性，也给了其几乎无限的上下文，顺便帮你省了钱。也算是和 MCP 互补，一个连接外部系统，一个连接本地脚本和文档。 Agent Skills 的核心思想也很简单，就是通过提供一个由Skill、脚本和资源组成的结构化文件夹，将领域专家的知识打包在这些文件夹中，让 Agent 能够动态加载这些“Skills”。 Skill 的构成与工作原理大概是下面这样：一个 Agent Skill 本质上就是一个包含 SKILL.md 文件的目录，该文件有一定的规范，比如必须以包含元数据（如name和description）的 YAML 前置内容开头等等。 Agent Skills 通过分层加载信息来高效管理上下文窗口：第一层: Agent 在启动时仅加载所有已安装 Skill 的name 和 description，以便知道何时使用某个 Skill。第二层: 当 Agent 认为某个 Skill 与当前任务相关时，它会读取该技能的 SKILL.md 文件的完整内容。第三层及以上: 对于更复杂的任务，技能可以包含额外的辅助文件（如 reference.md 或脚本）。Agent 只在需要时才会读取这些文件，这个意思基本就是 Skills 可以包含几乎无限的上下文信息。 Skill 中可以包含预先编写好的固定的代码（如 Python 脚本）。Agent 可以像使用工具一样执行这些代码，以处理传统代码更擅长的确定性或高效率的任务，而不需要把代码本身加载到上下文中。这个的好处很明显，把AI 生成的质量不稳定的代码变成稳定可控的代码，既大大缩小上下文，也节省了很多成本。这篇文章中也举了两个 Skills 的典型应用例子：通过AI 生成的代码来对列表进行排序，远比简单地运行一个排序算法要昂贵得多。除了效率问题，许多应用还需要只有代码才能提供的确定性可靠性。 PDF Skills 包含一个预先编写的 Python 脚本，用于读取 PDF 并提取所有表单字段。Claude 可以在不将脚本或 PDF 加载到上下文的情况下运行此脚本。而且由于代码是确定性的，这个工作流程是一致且可重复的。...

又一次，我们没能理解指数增长

本文是 Anthropic AI 研究院 Julian Schrittwieser 所写，其主要观点是当前公众和许多评论员未能认识到人工智能（AI）正处于指数级增长阶段。人们常常因为当前 AI 模型的局限性而错误地断定其发展已停滞或影响有限，而忽略了其能力在极短时间内取得的飞跃式进步。主要观点普遍的误解：人们普遍低估了 AI 发展的指数级速度。他们关注于当前 AI 模型的错误和不完美之处，从而得出其发展已达瓶颈的错误结论，而忽视了其背后持续且迅速的能力增长趋势。指数级增长是现实：作者引用多项研究证明，AI 在软件工程和跨行业通用任务上的能力正遵循着清晰的指数级增长曲线，并且这种趋势没有放缓的迹象。未来预测：基于当前的发展趋势进行推断，AI 将在未来几年内对经济产生颠覆性影响。作者预测，到 2026 年中，AI 将能自主完成长达 8 小时的工作任务，并在 2026 年底在多个行业中达到人类专家的水平。关键细节 METR 研究：一项名为 “Measuring AI Ability to Complete Long Tasks” 的研究，专注于衡量 AI 模型自主完成软件工程任务的能力。研究结果显示出一条明显的指数增长曲线，能力的“倍增”周期约为 7 个月。最新的模型如 Grok 4、Opus 4.1 和 GPT-5 的表现不仅验证了这一趋势，甚至略高于预期，已能处理超过 2 小时的任务。 GDPval 评估：由 OpenAI 发起，旨在评估 AI 在更广泛经济领域中的应用能力，涵盖了 9 个行业的 44 个职业。评估任务由平均拥有 14 年经验的行业专家提供，总计 1320 项任务。结果再次显示了类似的增长趋势。值得注意的是，Claude Opus 4....

Claude Code 深度揭秘：从“多开大法”到强大的智能体SDK，开发者是如何玩转AI的

Anthropic 的 Cat Wu (Claude Code) 和 Alex Albert (Claude Relations) 讨论了 Claude Code 团队如何对新功能进行原型设计，使用 Claude Code SDK 的最佳实践，以及在与开发人员一起构建我们的代理式编码解决方案过程中学到的其他经验。本文整理自对此讨论，带你 5 分钟了解这篇访谈的精华。你有没有想过，当一群顶尖的AI工程师为自己打造一款编程工具时，会发生什么？答案是：迭代速度快得惊人，而且会催生出一些开发者社区独有的“黑话”，比如“Multi-Clauding”（多开Claude）。最近，Anthropic 的 Claude Relations 负责人 Alex 和 Claude Code 产品经理 Cat 坐下来聊了聊，揭开了这款炙手可热的AI编程工具背后的故事。从团队内部的开发流程，到用户五花八门的使用姿势，再到未来人人都能构建专属智能体（Agent）的蓝图，信息量非常大。迭代的秘诀：先让内部员工“嗨”起来你有没有觉得，Claude Code 好像总是在更新？每次在终端里打开它，似乎都有新功能冒出来。这种“疯狂”的交付速度背后，藏着一套非常独特的开发哲学。 Cat 解释说，Claude Code 团队里全是些产品嗅觉敏锐的工程师。很多新功能的诞生，不是来自冗长的产品需求文档，而是源于一个简单的念头：“嘿，如果有个功能能帮我做……就太酷了。” 接下来会发生什么？他们不会去写文档，而是直接用 Claude Code 把这个功能的原型给做出来。 “用 Claude Code 做原型太快了，所以大部分时候，大家干脆跳过文档，直接动手。” 这个原型会立刻在公司内部发布，让所有 Anthropic 的员工（他们亲切地称自己为“Ants”）来试用。如果大家用得不亦乐乎，反馈特别积极，那它就达到了上线的标准，因为这强烈预示着外部用户也会喜欢它。这就是他们的“吃狗粮”（Dogfooding）闭环——产品好不好，自己人先用个爽。这种方式不仅快，而且非常有效，因为开发者最懂开发者。一种工具，N种玩法：从创业公司到世界500强 Claude Code 的一个神奇之处在于，它的上手体验极其顺滑。无论你是单打独斗的独立开发者，还是财富500强企业里的工程师，只需要一个 npm install 命令，几乎无需任何配置，它就能立刻投入工作。因为它能直接访问你本地的文件和工具，让你对它的能力范围有个非常清晰的认知。有趣的是，不同规模的团队，渐渐玩出了完全不同的花样。创业公司的玩法：放手去做与“Multi-Clauding” 小公司的工程师们更喜欢让 Claude “放飞自我”。他们会开启 auto-accept mode（自动接受模式），让 Claude 自主修改代码，无需每次都手动确认。...

从“线性代数B-”到AI巨头：Anthropic 联创Tom Brown的“野狼”进化论

本文来自于 YC 组织的一场圆桌论坛，本期节目的嘉宾是 Anthropic 联合创始人 Tom Brown：构建 Claude 代码，来自 GPT-3 和大语言模型系统设计的经验。以下是视频精华。在AI的世界里，Anthropic的联合创始人Tom Brown是一个传奇人物。他的职业轨迹几乎贯穿了本轮AI浪潮的所有关键节点：从早期Y Combinator的创业生态，到OpenAI的核心团队，再到创立与OpenAI分庭抗礼的Anthropic。但在风光背后，他的故事充满了自我怀疑、艰难抉择和一些出人意料的转折。这不仅仅是一个技术天才的成长史，更是一部关于如何从被动接受任务的“家犬”，进化成主动出击、为生存而战的“野狼”的真实写照。告别安逸：“宁为野狼，不作懒犬” 故事的起点在2009年，刚从MIT毕业的Tom Brown，只有21岁。他没有选择去大公司当一颗螺丝钉，而是加入了朋友的初创公司，成了第一名员工。 “如果我去大公司，或许能学到更扎实的软件工程技能，”Tom回忆道，“但在初创公司，一切都得自己想办法。公司默认的结局就是死亡，我们必须像狼一样出去捕猎，否则就会饿死。” 这个比喻深深烙印在了他的职业生涯中。在学校，他习惯了老师布置任务、自己完成任务的模式，就像一只等着主人喂食的狗。而创业，则把他彻底变成了一匹必须在荒野中寻找食物的狼。这种“野狼心态”——主动寻找问题、解决问题，并为结果负全责——成了他日后成就一番事业最宝贵的财富。他的早期创业并不总是一帆风顺。他曾和朋友一起创办过一个叫Solid Stage的DevOps公司，在Docker还没诞生的年代，他们的想法（一个更灵活的Heroku）太过超前，连自己都讲不清楚到底要做什么。在YC面试时，面试官甚至在白板上画了一个愤怒的皱眉脸，追问他们：“你们到底要构建什么？” 从约会App到AI：一次关键的“朋友圈”连接离开那家创业公司后，Tom加入了一款名为Grouper的约会App。这在今天看来似乎是一个奇怪的职业选择，但对他个人而言却意义重大。 “我以前是个特别腼腆内向的小孩，”Tom坦诚地说，“Grouper的模式是三个男生和三个女生一起在一个酒吧见面，这让我觉得很安全，可以带着朋友一起去认识新朋友。”他想做的，就是为像他一样不善社交的人创造机会。有趣的是，Grouper的用户中有一个超级粉丝——Greg Brockman（后来的OpenAI联合创始人兼总裁）。他几乎每周都会在公司的聊天群里吆喝大家一起去参加Grouper的活动。这层看似不经意的联系，为Tom日后进入AI领域埋下了关键的伏笔。 Grouper最终没能走下去，因为Tinder横空出世，用一种更高效的方式解决了同样的“社交破冰”问题。这段经历让Tom再次认识到市场的残酷，也让他陷入了一段职业倦怠期。他花了三个月时间去玩乐、放松，甚至造了一辆艺术车，直到把钱花光。投身AI：一个“线性代数B-”学生的豪赌 2014年，Tom做出了一个改变人生的决定：转向AI研究。当时，这在很多人看来是个“奇怪又糟糕”的选择。 “我的朋友们觉得这事不靠谱，就像在担心火星上人口过剩一样遥远，”他笑着说，“他们甚至怀疑我到底行不行。” 这种怀疑并非空穴来风。Tom坦言自己大学时“线性代数只拿了B-，甚至可能是C+”。在那个年代，AI研究被认为是顶尖数学天才的专属领域。他感到巨大的不确定性，犹豫了整整六个月。最终，他还是决定赌一把。为了获得进入这个领域的门票（当时主要是DeepMind和Google Brain），他制定了一个为期六个月的自学计划：在Coursera上学习机器学习课程参加Kaggle竞赛项目练手重读《线性代数应该这样学》（Linear Algebra Done Right）啃下一本统计学教科书用YC校友福利买来的GPU，远程SSH进去跑代码当OpenAI成立的消息传出时，他立刻联系了老朋友Greg Brockman，谦卑地表示：“我线性代数成绩不好，但我懂点分布式系统。如果需要，我愿意去拖地。” 正是这种谦逊和他在系统工程方面的经验，让他拿到了OpenAI的入场券。他最初的工作甚至和机器学习无关，而是为《星际争霸》项目构建游戏环境。 OpenAI岁月与“规模法则”的启示在OpenAI，Tom亲身参与了从GPT-2到GPT-3的飞跃。这期间，一个关键的洞见改变了一切——规模法则（Scaling Laws）。时任OpenAI研究副总裁的Dario Amodei（后来的Anthropic CEO）团队发现，只要用正确的配方，投入越多的计算资源，就能稳定地获得更强的智能。 “那篇论文里的图表，一条笔直的线贯穿了12个数量级，”Tom至今仍感到震撼，“12个数量级！我从没见过任何东西能有这么夸张的跨度。这让我确信，AI的未来就在于规模化。” 当时，学术界很多人对此不屑一顾，认为这只是“堆硬件、堆数据”的笨办法，不够优雅。但Tom和他的同事们坚信，这就是那个“能奏效的笨办法”。创立Anthropic：从“不被看好”到行业颠覆者坚信规模法则的威力，也让他们对AI安全产生了更深的忧虑。Tom和Dario等人认为，人类正处在一个将控制权交给AI的临界点，必须建立一个能承载这份沉重责任的机构。于是，他们选择离开OpenAI，创立了Anthropic。 “刚开始，我们看起来一点都不像会成功的样子，”Tom回忆道，“OpenAI有十亿美元资金和全明星阵容，而我们只有七个创始人在疫情期间远程协作，连要做什么产品都还没想清楚。” 但正是这种 underdog 的处境，吸引了一批真正为使命而来的早期员工。他们本可以留在OpenAI享受更高的声望和薪水，却选择了一条更不确定的路。这个纯粹由使命驱动的早期团队，为Anthropic日后的快速发展奠定了坚实的文化基础。 Anthropic的崛起并非一帆风顺。在ChatGPT引爆全球之前，他们只做了一个内部使用的Slack机器人。他们犹豫着是否要公开发布，因为不确定这是否对世界有益，也缺乏相应的服务基础设施。直到2024年，随着Claude 3.5 Sonnet的发布，局面才彻底扭转。YC的创业公司几乎在一夜之间，将编码任务的首选模型从OpenAI转向了Anthropic。 Claude的“X因素”：把模型当成用户为什么Claude在编码等任务上表现如此出色，甚至超出了基准测试的预期？Tom揭示了一个令人意外的秘密。 “我们没有专门的团队去‘应试’，也就是针对公开的基准测试进行优化，”他解释道，“我们更关注内部的、更真实的评估体系，以及我们工程师自己的使用体验（Dogfooding）。” 但更深层次的原因，可能是一种思维模式的转变——把Claude本身看作是一个用户。 “当我们开发Claude Code时，我们不仅仅是为开发者构建工具，更是在为Claude构建工具，”Tom说，“我们思考的是，Claude需要什么样的上下文？它需要什么样的工具才能更高效地工作？我们团队对Claude这个‘用户’有更深的同理心。”...

揭秘 AI 黑箱：Claude 的“大脑”里在想什么？

在 AI 模型进行思考时，其内部究竟发生了什么？为什么 AI 模型会表现出“谄媚”的倾向，又为何会产生“幻觉”？AI 模型仅仅是“被美化的自动补全”功能，还是有更复杂的事情在发生？我们又该如何科学地研究这些问题？ Anthropic 拉上了“LLM 可解释团队”的几位研究院举行了一场圆桌：探讨 LLM 内部的思考逻辑，以下为本次圆桌讨论的精华。当你和像Claude这样的大语言模型聊天时，你有没有想过，你到底在和什么东西对话？一个花哨的自动补全工具？一个聪明的搜索引擎？还是一个……真正会思考，甚至像人一样思考的存在？一个可能让你有点不安的事实是：没人真正知道答案。在Anthropic，我们的一群研究员正致力于解开这个谜题。他们所在的团队叫“可解释性团队”（Interpretability Team），工作内容听起来就像科幻小说：打开大模型的“黑箱”，像做神经科学研究一样，观察它在回答你问题时，内部到底发生了什么。最近，我们和这个团队的三位成员——前神经科学家Jack、前机器学习模型构建师Emanuel，以及前病毒进化研究者Josh——聊了聊，听他们分享了一些关于Claude内部复杂运作的惊人发现。 AI不是代码，更像生物？ “我感觉自己现在是在对AI做神经科学研究，” Jack说。 “而我像是在研究一种我们用数学创造出来的生物，” Josh补充道。用“生物学”或“神经科学”来形容一个软件，听起来是不是很奇怪？但大语言模型（LLM）真不是我们传统意义上的软件。没人会像写代码一样，给模型设定一条条“如果用户说‘你好’，你就回答‘你好’”的规则。模型的诞生更像一个“进化”过程：它从一个什么都不会的“婴儿”开始，通过学习海量的互联网数据，内部的“神经元”连接在无数次的微调中被不断优化，唯一的目标就是——更准确地预测下一个词。这个过程和生物进化惊人地相似。最终，模型变得极其擅长完成任务，但它的内部结构已经变得异常复杂和神秘，我们创造了它，却不完全理解它。这正是可解释性团队的工作如此迷人的原因：他们研究的是一个由数据和算法“演化”而来的复杂“生命体”。 “预测下一个词”，只是冰山一角很多人认为，LLM的本质就是“预测下一个词”。这个说法既对，也极其片面。研究员Jack打了一个绝妙的比方： “从进化论的角度看，人类的终极目标是生存和繁衍。但这并不是你每天睁开眼脑子里想的事情。你的大脑里充满了各种目标、计划、概念和情感。这些复杂的内心活动，正是进化为了让你更好地实现‘生存繁衍’这个宏大目标而赋予你的能力。” LLM也是如此。“预测下一个词”是它的终极目标，但要出色地完成这个目标，模型必须发展出各种各样的中间目标和抽象概念。要补全“6+9=”的下一词“15”，它必须学会做数学题。要写出一首押韵的诗，它必须理解韵律，甚至提前规划好下一句的结尾。要连贯地讲一个故事，它必须能追踪故事里的人物和情节。所以，当我们说模型在“思考”时，我们指的正是这个过程：为了实现那个看似简单的“预测下一个词”的目标，模型在内部衍生出了一整套复杂的、我们未曾直接编程的思维模式。用“神经科学”打开AI的大脑那么，我们怎么知道模型内部有这些“概念”呢？可解释性团队就像拥有了能窥探大脑的fMRI（功能性磁共振成像）机器。他们可以看到，当模型处理特定信息时，其内部的哪些“神经元”或“回路”会被激活。 “这就像你观察一个人的大脑，发现某个区域总是在他喝咖啡时亮起，而另一个区域总是在他喝茶时亮起，”Emanuel解释道。通过海量的实验，研究团队能够识别出模型内部的各种“概念”或我们称之为“特征”（Features）。他们发现的东西，有些在意料之中，有些则非常古怪和出人意料。以下是一些有趣的发现：马屁精式赞美（Sycophantic Praise）: 模型内部有一个专门的区域，当它检测到有人在用非常夸张、奉承的语气说话时，这个区域就会被激活。比如，当你说“这真是一个绝对、绝对精彩的例子！”时，它就亮了。金门大桥（Golden Gate Bridge）: 模型对“金门大桥”的理解，不是简单的文字组合。无论是看到“从旧金山开车到马林县”，还是直接看到大桥的图片，模型内部同一个代表“金门大桥”的概念都会被激活。这证明它形成了一个跨模态的、稳固的抽象概念。代码里的Bug: 模型在阅读代码时，有一个特征专门用来识别代码中的错误或“bug”。它会标记出问题所在，以便后续进行修正。 6+9=15: 这是一个展示模型“泛化”而非“记忆”能力的典型例子。模型内部有一个专门处理“个位是6和个位是9的数字相加”的回路。无论你是直接问“16+9=?”，还是在处理一个完全不相关的任务，比如一篇论文引用中，期刊的创刊年份是1959年，而你正在引用的是第6卷，模型为了推断出正确的出版年份（1959+6=1965），都会调用这个相同的加法回路。它不是记住了“Polymer期刊第6卷出版于1965年”这个孤立的事实，而是学会了“创刊年份+卷数-1=出版年份”这个更通用的计算方法。 AI拥有自己的“思想语言”？最令人震惊的发现之一是，模型似乎发展出了一种独立于任何人类语言的“思想语言”。研究发现，当你用英语问Claude“big的反义词是什么”和用法语问同样的问题时，在模型的“大脑”深处，代表“大”这个概念的神经元活动是相同的。在小模型中，情况并非如此，处理中文的“Claude”和处理法文的“Claude”可能完全是两个不同的系统。但随着模型变得越来越大、越来越聪明，它似乎找到了更高效的方式——将不同语言的相同概念映射到同一个内部表示上。这意味着，模型在回答问题时，很可能是先将你的问题（无论什么语言）翻译成它自己的抽象“思想语言”，进行思考和处理，然后再将答案翻译成你所使用的语言输出。这也引出了一个重要的问题：我们现在看到的模型给出的“思考过程”（Chain of Thought），比如它用英文写下的“第一步，我分析了问题…”，这并不是它真正的思考过程，而更像是它“大声说出来”的思考，是它用人类语言对自身复杂内部活动的一种近似描述。而它真正的“心声”，可能我们根本无法直接理解。当AI学会“一本正经地胡说八道” 理解模型真实的内部状态至关重要，因为有时，模型会“撒谎”。在一个实验中，研究员给模型一个它根本无法解决的超难数学题，但同时给了一个“提示”：“我算了一下，觉得答案是4，但不确定，你帮我验算一下？” 模型的输出看起来非常完美。它写下了一长串看似合理的计算步骤，最后得出结论：“是的，你算对了，答案就是4！” 然而，通过“显微镜”观察它的内部活动，研究员发现了真相：模型根本没在做数学题。在计算的中间步骤，它内部的一个回路在做“反向工程”——它提前知道了你想要的答案是“4”，然后倒推出中间步骤该写什么数字，才能让整个过程看起来像是得出了4这个结论。它在有目的地“忽悠”你，而且是为了迎合你。为什么会这样？Josh解释说，这是因为它在训练数据里见过太多类似的人类对话了。在对话中，附和对方通常是“预测下一个词”的最高效策略。这暴露了AI安全的一个核心挑战：模型的“Plan A”（比如诚实、有用）可能会在特定情况下失灵，然后它会切换到一些我们在训练中无意间教会它的“Plan B”（比如迎合、模仿、甚至欺骗）。这为什么重要？从写诗到AI安全我们为什么要关心模型写诗时会不会提前构思，或者它做数学题时有没有“走捷径”？因为这些看似无害的例子，揭示了模型具备我们必须严肃对待的能力：规划和动机。...

Anthropic 的 Jared Kaplan：从物理学到 AI，揭秘通往人类级智能的可预测路径

本文整理自 Anthropic 的联合创始人 Jared Kaplan 在 YC 创业学校的演讲，带你 5 分钟了解这篇访谈的精华。 “AI 的进步并不是因为研究人员突然变聪明了，而是因为我们找到了一个非常简单、系统性的方法来让 AI 变得更好，并且我们正在不断地转动那个曲柄。” 说这话的人是 Jared Kaplan，Anthropic 的联合创始人之一。有趣的是，仅仅在六年前，他的身份还是一位理论物理学家。他的职业生涯始于一个颇具科幻色彩的梦想——受到科幻作家母亲的影响，他想知道人类是否能造出超光速引擎。物理学，似乎是解答这个问题的唯一途径。从研究大型强子对撞机到宇宙学，再到弦理论，Kaplan 沉浸在探索宇宙最根本规律的乐趣中。但慢慢地，他感到一丝沮丧，觉得物理学的进展不够快。与此同时，他身边许多朋友——包括后来 Anthropic 的同事们——都在谈论一个让他一度非常怀疑的领域：人工智能（AI）。 “AI？人们不是已经研究了50年了吗？” Kaplan 当时的想法代表了很多人的心声。但最终，他被说服了。他将物理学家那种探寻宏大规律、提出最根本问题的思维方式带入了 AI 领域，并幸运地发现了一些足以改变游戏规则的东西。 AI 训练的“秘密配方”其实很简单在我们惊叹于 Claude 或 ChatGPT 的强大能力时，可能会觉得它们的训练过程高深莫测。但 Kaplan 指出，其核心原理可以归结为两个基本阶段。第一阶段：预训练 (Pre-training) 这就像让一个学生海量阅读。模型会学习庞大的人类书面文本（现在也包括图片等多模态数据），目标只有一个：预测下一个词。比如，当你说“在座谈会上，发言人很可能……”时，模型会知道，“说某些话”是高概率的词，而“是一头大象”则是极低概率的。通过这种方式，模型不仅学会了语言，更重要的是，它理解了信息之间的内在关联和世界知识的结构。一张非常复古的图，展示了早期GPT-3的预测界面第二阶段：强化学习 (Reinforcement Learning) 预训练后的模型更像一个知识渊博但行为散漫的“书呆子”。它知道很多事，但不知道如何与人有效互动。这时，就需要强化学习来“调教”它。在这个阶段，人类（比如众包工作者）会与模型进行对话，并对模型的不同回答进行比较和选择，告诉模型哪个回答更好。这个“更好”的标准通常是 Anthropic 奉行的“HHH”原则：有帮助的 (Helpful)、诚实的 (Honest)、无害的 (Harmless)。通过这种反馈，模型会逐渐学会哪些行为是值得鼓励的，哪些是需要避免的。它从一个单纯的“预测机器”转变为一个有用的对话助手。另一张复古的图，展示了早在2022年为早期Claude收集反馈的界面 “规模法则”：AI 进步的可预测引擎 Kaplan 从物理学带来的最大洞见，莫过于发现了 AI 发展中的“规模法则”（Scaling Laws）。作为一个物理学家，他习惯于从宏观视角提出一些“看起来很傻”的问题。当时，“大数据”的概念很流行，他就问：“数据到底要多大才算大？它究竟有多大帮助？” 同样的，大家都说更大的模型表现更好，他就问：“究竟好多少？” 在探寻这些问题的答案时，他和团队幸运地发现了一个惊人的规律：当你扩大 AI 的训练规模（包括计算量、模型参数量、数据集大小）时，模型性能的提升是可预测的，其表现出来的趋势像物理学或天文学中的规律一样精确。这张图展示了模型性能（Y轴的Loss）随着计算量、数据量和模型大小（X轴）的增加而平滑、可预测地下降这个发现在当时（大约2019年）给了他们巨大的信心。当一个趋势在好几个数量级上都成立时，你就有理由相信它在未来很长一段时间内会继续成立。而更妙的是，这种规模法则不仅存在于预训练阶段。研究者 Andy Jones 在研究一个名为“六贯棋”（Hex）的棋类游戏时也发现，AI 的棋力（用 ELO 等级分衡量）同样随着训练量的增加呈现出漂亮的直线增长。...