Anthropic 的 Jared Kaplan:从物理学到 AI,揭秘通往人类级智能的可预测路径

本文整理自 Anthropic 的联合创始人 Jared Kaplan 在 YC 创业学校的演讲,带你 5 分钟了解这篇访谈的精华。 “AI 的进步并不是因为研究人员突然变聪明了,而是因为我们找到了一个非常简单、系统性的方法来让 AI 变得更好,并且我们正在不断地转动那个曲柄。” 说这话的人是 Jared Kaplan,Anthropic 的联合创始人之一。有趣的是,仅仅在六年前,他的身份还是一位理论物理学家。他的职业生涯始于一个颇具科幻色彩的梦想——受到科幻作家母亲的影响,他想知道人类是否能造出超光速引擎。物理学,似乎是解答这个问题的唯一途径。 从研究大型强子对撞机到宇宙学,再到弦理论,Kaplan 沉浸在探索宇宙最根本规律的乐趣中。但慢慢地,他感到一丝沮丧,觉得物理学的进展不够快。与此同时,他身边许多朋友——包括后来 Anthropic 的同事们——都在谈论一个让他一度非常怀疑的领域:人工智能(AI)。 “AI?人们不是已经研究了50年了吗?” Kaplan 当时的想法代表了很多人的心声。但最终,他被说服了。他将物理学家那种探寻宏大规律、提出最根本问题的思维方式带入了 AI 领域,并幸运地发现了一些足以改变游戏规则的东西。 AI 训练的“秘密配方”其实很简单 在我们惊叹于 Claude 或 ChatGPT 的强大能力时,可能会觉得它们的训练过程高深莫测。但 Kaplan 指出,其核心原理可以归结为两个基本阶段。 第一阶段:预训练 (Pre-training) 这就像让一个学生海量阅读。模型会学习庞大的人类书面文本(现在也包括图片等多模态数据),目标只有一个:预测下一个词。 比如,当你说“在座谈会上,发言人很可能……”时,模型会知道,“说某些话”是高概率的词,而“是一头大象”则是极低概率的。通过这种方式,模型不仅学会了语言,更重要的是,它理解了信息之间的内在关联和世界知识的结构。 一张非常复古的图,展示了早期GPT-3的预测界面 第二阶段:强化学习 (Reinforcement Learning) 预训练后的模型更像一个知识渊博但行为散漫的“书呆子”。它知道很多事,但不知道如何与人有效互动。这时,就需要强化学习来“调教”它。 在这个阶段,人类(比如众包工作者)会与模型进行对话,并对模型的不同回答进行比较和选择,告诉模型哪个回答更好。这个“更好”的标准通常是 Anthropic 奉行的“HHH”原则:有帮助的 (Helpful)、诚实的 (Honest)、无害的 (Harmless)。 通过这种反馈,模型会逐渐学会哪些行为是值得鼓励的,哪些是需要避免的。它从一个单纯的“预测机器”转变为一个有用的对话助手。 另一张复古的图,展示了早在2022年为早期Claude收集反馈的界面 “规模法则”:AI 进步的可预测引擎 Kaplan 从物理学带来的最大洞见,莫过于发现了 AI 发展中的“规模法则”(Scaling Laws)。 作为一个物理学家,他习惯于从宏观视角提出一些“看起来很傻”的问题。当时,“大数据”的概念很流行,他就问:“数据到底要多大才算大?它究竟有多大帮助?” 同样的,大家都说更大的模型表现更好,他就问:“究竟好多少?” 在探寻这些问题的答案时,他和团队幸运地发现了一个惊人的规律:当你扩大 AI 的训练规模(包括计算量、模型参数量、数据集大小)时,模型性能的提升是可预测的,其表现出来的趋势像物理学或天文学中的规律一样精确。 这张图展示了模型性能(Y轴的Loss)随着计算量、数据量和模型大小(X轴)的增加而平滑、可预测地下降 这个发现在当时(大约2019年)给了他们巨大的信心。当一个趋势在好几个数量级上都成立时,你就有理由相信它在未来很长一段时间内会继续成立。 而更妙的是,这种规模法则不仅存在于预训练阶段。研究者 Andy Jones 在研究一个名为“六贯棋”(Hex)的棋类游戏时也发现,AI 的棋力(用 ELO 等级分衡量)同样随着训练量的增加呈现出漂亮的直线增长。...

August 7, 2025 · 1 min · fisherdaddy

Anthropic CEO 达里奥·阿莫迪深度访谈:解密AI背后的指数级商业引擎与“AGI信仰者”文化

本文整理自 John Collison 对 Anthropic CEO Dario Amodei的 深度访谈,带你 5 分钟了解这篇访谈的精华。 当一家公司在一年内将年化收入(ARR)从0做到1亿美元,第二年又从1亿冲向10亿,并在第三年过半时轻松突破40亿美元,你很难不感到好奇。这家公司就是前沿AI实验室Anthropic,而坐在驾驶座上的是其CEO——达里奥·阿莫迪(Dario Amodei)。 从物理学家到计算神经科学家,再到谷歌大脑、OpenAI的核心研究员,达里奥的履历闪闪发光。但如今,他不仅是技术领袖,更是一家全球增长最快企业的掌舵人。在这次深度对话中,他以前所未有的坦诚,揭示了Anthropic火箭般增长背后的商业逻辑、独特的公司文化,以及他对AI未来的深刻洞见。 一切始于信任:七位联合创始人与“反常识”的股权结构 很多人会好奇,和自己的亲兄妹一起创业是种怎样的体验?达里奥的妹妹丹妮拉(Daniela)正是公司的总裁。达里奥笑着说,这其实是一种绝佳的互补。他负责战略,思考那些别人没看到或最重要的事;而丹妮拉则负责将战略落地,高效执行。他们各司其职,彼此拥有绝对的信任。 但Anthropic的“反常识”之处远不止于此。公司创立之初,竟有七位联合创始人。当时几乎所有人都警告他:“这简直是场灾难,公司很快就会在内斗中分崩离析。”更让人大跌眼镜的是,达里奥决定给每位联合创始人完全相同的股权。 “事实证明,这恰恰是我们力量的源泉。”达里奥解释道。这七个人不仅是同事,更是长期并肩作战、价值观高度一致的伙伴。这种深度的信任基础,让公司在指数级扩张的过程中,依然能牢牢守住核心价值观和团结。七位创始人就像七个灯塔,将公司的理念投射到不断壮大的团队中。 AI的商业引擎:像开发新药一样,打造一个个“盈利公司” Anthropic的增长速度堪称商业史上的奇迹。达里奥分享了他们令人难以置信的融资经历: 2023年初,公司收入为零。他向投资者预测当年能实现1亿美元营收。许多人认为他“疯了”、“失去了所有信誉”。结果,他们做到了。 2024年初,他预测能从1亿美元增长到10亿美元。质疑声依旧,但他们再次做到了。 如今,公司的年化收入已远超40亿美元。 这种指数级增长的背后,是一种完全不同于传统软件的商业模式。达里奥将其类比为药物研发。 “你可以把我们训练的每一个模型,都看作一个独立的公司。” 想象一下这个场景: 2023年:你投入1亿美元训练一个模型(就像研发一款新药)。 2024年:这个模型为你带来了2亿美元的收入。从单个项目看,它是盈利的。 但与此同时,在2024年,你基于技术进步,又投入了10亿美元去训练一个更强大的下一代模型。 2025年:这个10亿美元的模型可能会带来20亿美元的收入,但你可能又会投入100亿美元去研发下一个…… 从传统的损益表(P&L)来看,公司似乎一直在“亏损”,而且亏损额越来越大。但如果我们把每个模型看作一个独立的产品(或一家公司),它们实际上是盈利的。真正发生的是,公司在享受上一代模型带来的回报时,正以前所未有的规模对下一代技术进行更庞大的研发投资。 “我们正处在这条指数曲线上,”达里奥说,“这条曲线何时会放缓?我们会在多大的规模上达到平衡?这是我们每天都在面对的不确定性,也是这个领域最迷人的地方。” 他半开玩笑地补充道,这种商业增长与模型能力的提升存在一种“换算关系”。当你投入10倍的资源,模型能力从“聪明的本科生”跃升为“聪明的博士生”,客户(比如一家制药公司)会发现,后者的价值远远超过前者的10倍。这就像模型自身就有一种学习和在市场上取得成功的内在资本主义冲动,而产品和市场团队的工作,就是“擦亮窗户,让光芒照射进来”。 钱从哪儿来?编码只是冰山一角 AI到底在被用来做什么?为什么能产生如此巨大的收入? 达里奥指出,目前增长最快的应用是编程。这并非因为AI只能写代码,而是因为程序员这个群体本身就是技术的早期采用者,他们与AI开发者在技术和社交上都非常接近,使得新技术的扩散速度极快。 “一个新功能发布两小时后,网上就已经有人用它尝试了一万种可能,并形成了初步的社群意见。”他感叹道。 但编程只是一个预兆,它预示了即将在所有行业发生的事情。 客户服务:与Intercom等公司的深度合作,自动化处理大量重复但又各有不同的客户问询。 科学与生物:与Benchling这样的科学平台合作,也与大型制药公司如诺和诺德(Novo Nordisk)合作。一个惊人的案例是,过去需要九周才能完成的临床研究报告,Claude能在五分钟内生成初稿,人类只需几天时间检查即可。 金融服务:推出针对金融行业的Claude版本。 国防与情报:尽管这在外界看来颇具争议,但达里奥认为这是在践行“捍卫民主”的使命,而非简单的商业考量。他坦言,从商业角度看,从一家编程创业公司那里赚到同样多的钱,要比和政府打交道容易一个数量级。 API不是商品,模型就像有不同性格的厨师 有人认为,API生意没有粘性,最终会被商品化。达里奥和采访者都笑了,他们都经营着成功的API业务。 “这种说法就像是在说,如果我跟九个身高差不多、大脑结构相似的人待在一个房间里,我就被‘商品化’了,谁还需要我呢?”达里奥打了个风趣的比方。 他认为,AI模型远非商品。每个模型都有自己独特的**“个性”和“风格”**。 “这有点像烘焙蛋糕,或者说请不同的厨师做菜。你放入同样的食材,但不同的厨师做出来的味道就是不一样。你无法让一个厨师完全复制另一个人的手艺。” 客户会发现,在处理特定任务时,某个模型的回答就是更符合他们的偏好,即使他们也说不清为什么。而未来,**个性化(Personalization)**将成为加深这种“粘性”的强大护城河。当一个模型深度学习了你的个人偏好或公司业务流程后,切换的成本会变得极高。 “AGI信仰者”文化:如何在一个指数时代航行? 面对AI领域激烈的人才争夺战和天价薪酬包,Anthropic如何留住核心人才并保护商业机密?达里奥的答案是,打造一个**“AGI信仰者”(AGI-pilled)**的组织。 “AGI信仰者”意味着整个公司的每个人,从财务到招聘,从产品到法务,都深刻理解并围绕一个核心假设来工作:我们正处在一个技术能力呈指数级增长的时代,这会带来巨大的机遇和颠覆性的变化。 人才与IP:相比于个别的“价值一亿美元的几行代码”,达里奥认为公司真正的护城河是**集体性的“know-how”**和难以泄露的复杂工程能力。同时,他们通过信息分级(Compartmentalization)和非常高的员工保留率(在AI公司中最高)来保护自己。人们之所以留下,是因为对公司使命的真正信仰,以及对公司股权未来价值的看好。 产品开发:在AI时代,传统的产品路线图可能毫无意义。“如果你计划用六个月打造一个完美产品,那可能已经太晚了。”达里- 奥建议。产品必须围绕AI能力的未来发展方向来设计,避免成为一个轻易被下一代模型迭代掉的“包装纸”(wrapper)产品。迭代速度必须极快,因为你总是在**“第一天”**探索未知。 用户界面(UI):达里奥承认,目前的AI交互方式(比如文本框)还非常原始,处在“拟物化”(Skeuomorphism)或“无马马车”(horseless carriage)的阶段。未来的挑战在于设计一种全新的交互范式:既能让AI代理高效自主地完成任务,又能在关键时刻让用户轻松介入、审查和引导,而不会被海量信息淹没。 冲破“墙壁”,拥抱奇特的未来 从“AI无法推理”到“AI无法做出新发现”,再到“AI无法持续学习”,历史上AI的发展一次次冲破了人们设下的“根本性壁垒”。达里奥认为,这些所谓的“墙壁”,很多时候源于一种现代“活力论”(vitalism)——人们总想相信人类的认知有某种机器无法企及的、神秘的特殊性。 “事实是,AI模型的错误会比人类少得多,但它们的错误会更‘奇怪’。”他指出。一个喝醉酒的客服人员,我们能轻易识别他的状态不可信。但AI在犯错时,可能听起来依然条理清晰、充满自信。这需要我们人类去适应一种全新的协作模式和判断标准。 对于未来,达里奥预测,像AI自动完成报税这样的复杂任务,可能在2026或2027年就能实现,比许多人预想的要早。 面对AI带来的风险和潜在的经济冲击,他并不主张“暂停”或“减速”,因为这在现实中既不可能也不明智。他更倾向于建立**“护栏”**。如果说AI能带来10%的经济增长,那么为了安全和稳定,我们是否愿意接受9%的增长,并用那1%来购买“保险”? “我不想停止这场化学反应,”达里奥最后说,“我只想聚焦它的方向,确保它不会过热或冲出跑道。” 在与达里奥的对话中,你能清晰地感受到一种独特的张力:一边是对技术指数级进步的狂热信念和巨大野心,另一边则是对随之而来的巨大责任的冷静思考和审慎前行。这或许就是一家注定要深刻改变世界的公司,所应有的姿态。

August 7, 2025 · 1 min · fisherdaddy

从滑雪事故到精准理赔:一次 Prompt 工程实战大师课 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Prompt 101,以下为原视频精华。 你有没有过这样的经历:想让AI帮你做点事,结果它却给出了一个让你哭笑不得的答案?别担心,你不是一个人。这恰恰说明了“提示词工程”(Prompt Engineering)的重要性。 简单来说,Prompt工程就是我们与大型语言模型(比如Claude)沟通的艺术。它不仅仅是下达一个命令,更是关于如何清晰地描述任务、提供足够的上下文、并巧妙地组织信息,从而引导AI交出我们真正想要的完美答卷。 理论听起来有点枯燥,对吧?最好的学习方式永远是亲自动手。所以,今天我们不聊空泛的概念,而是跟着Anthropic应用AI团队的专家Hannah和Christian,通过一个真实的客户案例,一步步搭建一个高质量的Prompt。 初始挑战:一张瑞典语的事故报告单 想象一下,你是一家瑞典保险公司的理赔员。每天,你都要处理大量的汽车保险索赔。今天,你手上有两份材料: 一份手填的事故报告表:上面用瑞典语写着事故发生的各种情况,勾选了一些选项。 一张手绘的事故草图:潦草地画着两辆车是怎么撞上的。 我们的目标是让Claude分析这两份图像材料,搞清楚事故经过,并判断谁是责任方。听起来是个不错的自动化方案,对吧? Round 1: 最天真的尝试——直接把图片丢给AI 大多数人刚开始可能都会这么做:把两张图片上传,然后给一个超级简单的指令,比如: “请审查这份事故报告和草图,告诉我发生了什么,以及谁的责任。” (示意图:简单的指令界面) 结果呢?Claude的回答让人大跌眼镜。它认为这是一起发生在瑞典一条著名商业街上的滑雪事故。 等等,滑雪? 这当然是个无辜的错误。在我们极其简单的指令里,没有给AI任何场景信息。它看到了模糊的手绘线条和表格,做出了一个不那么离谱的猜测。这个结果虽然不对,但它告诉我们一个关键道理:你不能指望AI读懂你的心思,你得把舞台先为它搭好。 Prompt工程的核心:迭代与优化 这次失败恰恰是Prompt工程的起点。它就像一门实验科学,你需要不断尝试、观察结果、然后迭代优化你的指令。我们的第一个优化目标很明确:得让Claude知道,我们处理的是车辆事故,不是什么滑雪运动。 为了做到这一点,我们需要一个更专业的Prompt结构。Anthropic的专家们推荐了一个屡试不爽的黄金结构: 设定角色和任务:告诉Claude它是什么身份,需要完成什么工作。 提供上下文/文档:给出完成任务所需的背景信息或固定文档。 动态内容:这是每次请求都会变化的部分,比如我们这次的事故报告图片。 详细步骤/指令:像写SOP一样,告诉它一步步该怎么做。 提供范例 (Few-shot):如果可能,给一两个已完成的“标准答案”作为参考。 最后提醒和输出格式要求:在最后,再次强调关键规则,并指定你想要的输出格式。 听起来有点复杂?别急,我们一步步来拆解。 Round 2: 设定角色与基调——“你是专业的理赔助理” 在第一次失败的基础上,我们来丰富一下指令,加入“角色设定”和“基调要求”。 你是一名AI理赔助理,正在帮助人类理赔员审查瑞典的汽车事故报告。你的任务是分析提供的事故报告表(手填表格)和事故草图(手绘图)。 你的分析必须基于事实,保持自信。如果你对信息不确定,或无法看清内容,请直接说明,不要猜测。你的目标是判断事故责任方。 这次,我们明确了几个关键点: 角色:AI理赔助理。 领域:瑞典汽车事故。 输入:手填表格和手绘图。 基调:实事求是,不确定就别瞎说。 再次运行后,结果好多了!Claude准确地识别出这是一起汽车事故,还看出了A车和B车分别勾选了表格中的第1项和第12项。 但是,它最后补充道:“由于信息不足,我无法自信地判断谁是责任方。” 这是一个巨大的进步!它没有再犯“滑雪事故”那样的错误,并且严格遵守了我们“不确定就不猜测”的指令。现在的问题是,如何给它足够的信息,让它变得“确定”? Round 3: 提供背景知识——把“说明书”喂给AI 那份瑞典事故报告表,虽然每次填写的内容不同,但表格本身的格式和每个选项的含义是固定的。这部分信息就是完美的“背景知识”,可以预先提供给Claude。 我们决定把这份“说明书”放进**系统提示(System Prompt)**里。这样,AI在处理任何请求前,就已经把这份知识内化于心了。我们还使用了XML标签(比如``)来组织信息,这能让AI更好地理解不同信息块的作用。 系统提示词(System Prompt)里大概是这样写的: 这份表格用于记录交通事故详情。它有两列,分别代表车辆A和车辆B。表格共有17个选项,每个选项都描述了一种特定的驾驶行为或情况。 含义是“车辆停放/停止”。 含义是“离开停车位/开门”。 ... 含义是“其他情况”。 - 这是由普通人手填的,标记可能不完美,比如用圈、涂抹代替了标准的“X”。 - 仔细识别勾选了哪个框。 我们在用户指令(User Prompt)中保持不变,但现在Claude有了这份“说明书”撑腰。它不再需要每次都费力地去现场解读表格上每个瑞典单词的意思,而是可以直接调用这些预置知识。...

August 1, 2025 · 1 min · fisherdaddy

一份在生产环境中进行“Vibe Coding”的生存指南 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Vibe coding in prod,以下为原视频精华。 嘿,大家好。今天我们来聊一个大家都爱的话题——Vibe Coding。而且,我们还要聊一个可能有点争议的子话题:如何在生产环境(Prod)中负责任地进行Vibe Coding。 我叫Eric,是Anthropic的一名研究员,专注于编码智能体(Coding Agents)。去年,我骑车上班时摔断了手,打了两个月的石膏。你猜怎么着?那两个月里,我所有的代码都是Claude帮我写的。所以,如何高效地让AI为我工作,对我来说不仅仅是个研究课题,更是一次亲身实践。 到底什么是“Vibe Coding”? 很多人觉得,只要大量使用AI生成代码,比如用Cursor或者Copilot,就是在Vibe Coding。但我认为这不完全对。当你的工作流仍然是和模型进行紧密的、快速的来回反馈时,那还不是真正的Vibe Coding。 要理解它的精髓,我们得回到Andrej Karpathy的经典定义: Vibe Coding,就是你完全沉浸于“感觉”(the vibes),拥抱指数级增长,并且忘记代码本身的存在。 关键就在于**“忘记代码本身的存在”**。 这不仅仅是工程师的自娱自乐。Vibe Coding真正让人兴奋的地方,在于它让那些圈外人——那些不懂编程的人——也开始对代码生成感到激动。他们突然发现,自己竟然可以独立构建一个完整的App。这无疑是一次巨大的解放。 当然,随之而来的就是各种“翻车现场”:API密钥被刷爆、订阅系统被绕过、数据库里出现一堆奇奇怪怪的东西。成功的Vibe Coding案例,似乎都发生那些低风险的场景里,比如做个小游戏或者有趣的个人项目,就算出Bug也无伤大雅。 既然这么“危险”,我们为什么还要关心它? 答案是:指数级增长(The Exponential)。 AI能独立完成的任务时长,大约每7个月就会翻一番。现在,AI大概能独立处理一个小时的工作量。这还行,你可以用Cursor帮你写,或者让Claude帮你实现一个需要一小时开发的功能,然后你花点时间审查所有代码,你依然深度参与其中。 但是,明年呢?后年呢? 当AI强大到可以一次性为你生成一整天甚至一整周的工作量时,我们根本不可能再亦步亦趋地去审查每一行代码。如果我们想抓住这个指数级的机遇,就必须找到一种方法,负责任地“放手”,让AI去驰骋。 这让我想起了早期的编译器。我敢肯定,那时候很多开发者也不信任编译器。他们可能会用,但还是会去读编译后的汇编代码,确保它跟自己手写的一样高效。但这种做法根本无法规模化。当系统变得足够庞大复杂时,你必须选择相信这个工具。 所以,未来几年整个软件行业面临的挑战就是:我们如何安全地在生产环境中进行Vibe Coding? 我的答案是:我们可以忘记代码的存在,但绝不能忘记产品的存在。 新的思维模式:你不是码农,你是AI的产品经理 这其实不是一个新问题。想想看: 一个CTO如何管理一个自己完全不懂的专业领域的顶尖专家? 一个产品经理(PM)在自己看不懂代码的情况下,如何验收一个工程特性? 一个CEO在不精通财会的情况下,如何核查会计师的工作? 这些问题已经存在了几百年,而我们也早已有了解决方案。 CTO 可以为专家的工作编写验收测试(acceptance tests),即使不懂具体实现,也能验证功能是否达标。 PM 可以亲自使用产品,确保它的行为符合预期。 CEO 可以抽查自己能看懂的关键数据和报表切片,从而建立对整体财务模型的信心。 看出来了吗?管理一个你并不完全理解其实现的“黑箱”,是人类社会自古以来就在解决的问题。几乎所有管理者每天都在做这件事。只是我们软件工程师习惯了作为纯粹的个人贡献者,习惯了掌控从上到下的每一个技术细节。 为了变得更高效,我们必须学会放手,就像管理者为了高效必须放弃对细节的微操一样。我们需要找到一个可以验证的抽象层,而无需深入了解其底层的具体实现。 唯一的例外:技术债(Tech Debt) 不过,这里有个棘手的问题:技术债。目前,我们还没有一种好方法,可以在不阅读代码的情况下,有效地衡量或验证技术债。这是个硬伤。但这不意味着我们就束手无策了,我们只需要更聪明、更有针对性地选择Vibe Coding的应用场景。 实战框架:如何在代码库中安全“放飞”AI 我的建议是:专注于代码库的“叶子节点”(Leaf Nodes)。 (想象一个树状的代码结构) 叶子节点(图中的橙色点):这些是代码库中不被任何其他部分依赖的模块。它们通常是最终的功能、一些额外的“小玩意儿”。在这些地方,就算存在一些技术债,影响也是可控的,因为它们不太可能被修改,也不会有其他功能建立在它们之上。 主干和分支(图中的白色点):这些是系统的核心架构。我们作为工程师,仍然需要深度理解和保护这些部分,确保它们的可扩展性、可理解性和灵活性。 当然,模型在不断进步。随着时间的推移,我们可能会越来越信任AI去编写那些更核心、更具扩展性的代码。 如何成为一名出色的AI产品经理? 记住这句话:别总问Claude能为你做什么,要问问你能为Claude做什么。...

August 1, 2025 · 1 min · fisherdaddy

如何与 AI Agent 对话:来自 Anthropic 专家的终极 Prompt 指南

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Prompting for Agents,以下为原视频精华。 你可能已经习惯了和AI聊天,让它帮你写邮件、总结文章。但你有没有想过,如何指挥一个AI去独立完成一项复杂任务?比如,只给它一份设计文档,就让它自己写代码、测试、然后提交一个PR(Pull Request)? 这就是AI智能体(AI Agent)的魔力。它不再是被动的一问一答,而是一个能自主规划、使用工具、并循环往复直到达成目标的“行动派”。 来自Anthropic应用AI团队的专家Hannah和Jeremy,通过一场深入的分享,揭示了如何为这些强大的智能体编写指令(Prompting)。这和我们平时在聊天框里输入问题可大不一样,它更像是在用自然语言进行“编程”。 什么是AI智能体,我什么时候该用它? 在我们深入探讨Prompt技巧之前,得先搞清楚一个基本问题:到底什么是智能体? Anthropic给出的定义非常简洁:智能体就是“在循环中持续使用工具的模型”。 想象一下,你给它一个任务,它会: 思考:分析任务,规划步骤。 行动:调用它能使用的工具(比如搜索、读写文件、访问API)。 观察:分析工具返回的结果。 循环:根据新的信息,更新决策,继续思考、行动、观察,直到任务完成。 听起来很酷,但千万别滥用。智能体是为“复杂且有价值”的任务而生的,把它用在所有地方只会事倍功半。那么,什么时候才是智能体大显身手的最佳时机呢? 你可以用下面这四个问题来判断: 任务足够复杂吗? 如果你能清晰地列出完成任务的每一步,那你可能只需要一个自动化的工作流,而不是智能体。智能体的用武之地在于那些“你知道目的地,却不清楚具体路线”的场景。比如数据分析,你知道你想要获得某些洞察,但数据本身可能有错误、格式不一,需要智能体在探索中动态调整分析策略。 任务价值够高吗? 智能体的运行会消耗更多资源。如果任务本身价值不高,用智能体就有点“杀鸡用牛刀”了。相反,如果一个任务能为你创造显著价值(比如直接产生收入,或将工程师从繁琐的编码中解放出来),那智能体就是你的不二之选。 任务的子步骤可行吗? 智能体需要工具来与世界互动。如果你无法为智能体提供完成任务所需的工具(比如访问特定数据库的API、读写文件的权限),那它也无能为力。在设计任务时,要确保你能为它提供必要的“武器”。 犯错的成本高吗? 如果一个错误很难被发现,或者一旦出错就造成无法挽回的损失,那么让智能体完全自主工作可能不是个好主意,或许需要加入“人类审核”环节。但如果错误是可恢复的(比如网页搜索结果不佳,再搜一次就行),或者成本很低,那就可以放心地让智能体独立工作。 简单来说,编码、复杂研究、数据分析、需要和电脑桌面交互的任务,都是智能体的绝佳应用场景。 智能体Prompting的核心秘诀 好了,现在我们知道什么时候该用智能体了。接下来,Jeremy分享了他们在构建claude-code(一个在终端里写代码的智能体)和claude.ai高级研究功能时总结出的宝贵经验。这些技巧,才是让智能体从“能用”到“好用”的关键。 1. 像智能体一样思考 这是最重要的原则。你必须设身处地地站在智能体的角度,去理解它的“世界”——也就是它拥有的工具和它能从工具那里得到的回应。如果换作是你,面对同样的工具和信息,你会不会感到困惑?如果一个任务的说明连人都看不懂,AI更不可能明白。 2. 给予合理的“启发式原则” (Heuristics) Prompt工程远不止于文字游戏,它是一种“概念工程”。你需要为智能体灌输一些核心的行为准则。 举个例子:“不可逆性” 在claude-code中,他们教会了模型一个概念叫“不可逆性”,即不要执行任何可能对用户环境造成永久性损害的操作。这个概念需要被清晰地定义,否则一个“过于热情”的智能体可能会误解你的意图,做出超出预期的行为。 另一个例子:设置“预算” 在研究任务中,他们发现模型有时会没完没了地进行网页搜索,即便已经找到了答案。后来,他们在Prompt里加入了一条原则:“当你找到答案后,就可以停止搜索了”,并且给它设定了工具调用次数的“预算”——简单问题用少于5次工具调用,复杂问题可以用10到15次。 把智能体想象成一个刚毕业的实习生,你需要非常清晰地告诉他工作的原则和边界,而不是期望他什么都懂。 3. 工具选择是关键 最新的模型(如 Claude 3.5 Sonnet 和 Opus)可以同时处理上百个工具,但它并不知道在你的特定场景下,哪个工具是首选。你需要在Prompt里明确地指导它。 “在A公司,如果你要找内部信息,应该优先搜索Slack,而不是Google Drive。” 这样的具体指导,远比给一堆工具让模型自己猜要有效得多。另外,尽量避免给模型一堆名字和描述都非常相似的工具,这会把它搞糊涂。最好是将相似的工具合并成一个。 4. 引导它的“思考过程” 不要只是打开模型的“思考”开关(thinking block/chain-of-thought)就完事了。你可以更进一步,引导它如何思考。 规划在前:在执行任务前,让智能体在第一个“思考块”里就规划好整个流程:“这个任务有多复杂?我大概需要调用几次工具?我该去哪里找信息?我怎么判断任务成功了?” 事后反思:模型从工具(比如网页搜索)拿到信息后,默认会认为这些信息都是真的。你可以引导它进行“交错式思考”(interleaved thinking),在两次工具调用之间停下来反思一下:“这个搜索结果可靠吗?我需要交叉验证一下吗?或者我应该在最终报告里加个免责声明?” 5. 预料之外的“副作用” 智能体是自主循环的,所以你对Prompt的任何一个微小改动,都可能带来意想不到的连锁反应。比如,你告诉它“一定要找到最高质量的信源”,结果这个“完美信源”根本不存在,智能体就可能会陷入无限搜索的循环,直到耗尽上下文窗口。因此,你还需要告诉它:“如果几次尝试后找不到完美信源,那也没关系,可以停下来。”...

August 1, 2025 · 1 min · fisherdaddy

Claude Code 最佳实践指南 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Claude Code best practices,以下为原视频精华。 大家好,我是 Cal,在 Anthropic 的应用 AI 团队工作。我的日常就是和 Claude 打交道,想方设法地挖掘出这些模型最惊艳的潜力。不过,除了做提示词工程,我也是个不折不扣的编程爱好者。 你懂的,就是那种脑子里总有疯狂点子,喜欢启动一堆新项目,但最后能完成的寥寥无几的人。我的电脑里简直就是个“代码项目坟场”。 直到去年年底,我在公司内部听说了一个很酷的新工具。一个周五晚上,我下载了这个后来被命名为 “Claude Code” 的工具,并把它用在了我想开发的一个新笔记应用上。那个周末,彻彻底底地改变了我对编程和软件工程的看法。 我整个周末都抱着笔记本电脑,简直像上瘾了一样,看着 Claude 不断编写代码。我按下回车,切换到浏览器刷新,一个强大复杂的应用就在我眼前慢慢成形。我一个人绝对不可能在这么短的时间内做到这个地步,这感觉太震撼了。 当时我还有点小担心:“天啊,我这得用了多少 token,不会被老板发现我没在干正经活吧?” 但我不知道的是,Claude Code 团队内部有个排行榜,记录着所有员工的使用情况。一个周末下来,我直接冲到了榜首。 就这样,我认识了 Boris 和 Cat 这些 Claude Code 的早期团队成员。凭借着我对提示词的了解和对这个工具的热爱,我加入了他们,成为了核心贡献者之一。 今天,我想跟大家聊聊 Claude Code,分享一些我们内部总结的最佳实践。 把你的编程搭档,想象成一位终端命令行高手 如果有人问我 Claude Code 是什么,我的脑海里会浮现出一个画面:它就像你团队里那个精通命令行的同事。 他从不碰图形界面,手指在键盘上翻飞,用各种复杂的 Bash 命令和 Vim 快捷键解决问题。我刚当工程师的时候,就有个叫 Tony 的导师。每次我遇到 bug 去找他,他总是在终端里一顿操作,看得我眼花缭乱,然后问题就解决了。我总是想:“太牛了,我啥时候也学学这个。”——当然,我从来没学会。 但现在,拥有 Claude Code,就好像随时随地都有一个 Tony 坐在你旁边。 揭秘:Claude Code 是如何工作的? 在 Anthropic,我们信奉一个原则:“做那个能奏效的简单方案”。对于 Claude Code 来说,这意味着它是一个非常“纯粹”的智能体(Agent)。...

August 1, 2025 · 2 min · fisherdaddy

Anthropic CEO Dario Amodei 深度访谈:AI 的潜力、与 OpenAI 的竞争、生成式 AI 业务、末日论

本文整理自 Alex Kantrowitz 对 Anthropic CEO Dario Amodei的 深度访谈,以下为原视频精华。 别叫我“AI末日论者”——Anthropic CEO Dario Amodei的自白与野心 “当有人叫我‘末日论者’,说我想让AI发展减速时,我真的会非常愤怒。” Anthropic 的CEO Dario Amodei 在采访一开始就毫不掩饰自己的情绪。对他来说,这个标签不仅是一种误解,更是一种侮辱。因为很少有人比他更清楚,技术进步的迟缓意味着什么。 “你听听我刚才说的,我父亲的去世,就是因为那些晚了几年才出现的疗法。我比谁都懂这项技术能带来的好处。” 这份深植于个人经历的紧迫感,塑造了Dario Amodei——这位处在AI浪潮之巅,却又时常发出警示声音的复杂人物。他既是AI能力指数级增长最坚定的信徒,也是那个不断提醒世界“小心脚下”的吹哨人。 在这场坦诚的对话中,Dario分享了他对AI未来的判断、Anthropic的生存法则,以及他为何选择了一条与众不同的道路。 指数级增长:我们都被蒙在鼓里 Dario的核心观点可以归结为一个词:指数级增长(the exponential)。 他认为,人们在直觉上很难理解指数曲线的可怕。就像上世纪90年代的互联网,在它彻底爆发的前两年,看起来似乎才刚刚起步,只有1/16的威力。而今天的AI,正处在同样的历史节点。 “我们正坐在2025年的中间点,模型的能力正在爆炸式增长,” Dario说,“几年前它们还语无伦次,后来达到高中生水平,现在已经是聪明的大学生甚至博士生了。” 他不喜欢用“AGI”或“超级智能”这类模糊的营销术语,他觉得那些词只会刺激人们的多巴胺。他更愿意谈论可观察到的、实实在在的进步——只要投入更多的算力、数据和新的训练方法,AI模型每隔几个月就会变得比上一代更强。 这种进步也直接体现在商业上。Anthropic的收入增长曲线堪称疯狂: 2023年:从0增长到1亿美元 2024年:从1亿美元增长到10亿美元 2025年上半年:从10亿美元增长到超过45亿美元 “我不是说这个趋势一定会持续,但如果你假设它再持续两年呢?你会进入千亿级别。” Dario解释道,“人们正在被指数增长蒙蔽了双眼,没有意识到事情会发展得有多快。” 正是这种对未来的预判,让他感到前所未有的紧迫感。他觉得,当问题(无论是国家安全还是经济冲击)离我们越来越近时,他有责任和义务把丑话说在前面,警告世界可能出现的风险。 技术瓶颈?只是暂时的障碍 尽管行业内充满了对“规模化边际效益递减”和“模型无法持续学习”的担忧,但Dario对此不以为然。 1. 关于边际效益递减 “从我们在Anthropic内部看到的情况来说,我们没有看到任何收益递减。” 他以编码领域为例。Anthropic的Claude系列模型在编码能力上进步神速,相关的基准测试(如SweetBench)得分从18个月前的3%飙升到了现在的70%-80%。在Anthropic内部,大部分代码的编写都已经离不开Claude的参与。他认为,所谓的瓶颈,更像是某些人的一厢情愿。 2. 关于持续学习 有人批评大语言模型像个一次性产品,训练完就定型了,无法像人一样持续学习。Dario承认这是个问题,但远非致命弱点。 “就算我们永远解决不了持续学习,一个拥有诺奖级别智慧但无法学习新知识的AI,如果你有一千万个,它们照样能在生物学上取得巨大突破。” 更何况,他认为这根本不是一个无法解决的问题。首先,不断增长的“上下文窗口”本身就是一种短期学习。理论上,我们可以把上下文窗口扩展到一亿个词,相当于一个人一生的信息输入量。其次,他相信通过新的技术架构(比如他提到的“内循环”和“外循环”),持续学习的问题最终也会像之前的“推理”难题一样,被“规模化+新思路”所攻克。 “在AI领域,每当我们觉得遇到了什么根本性障碍,结果往往它都不是。” Anthropic的生存之道:小而美,但火力十足 作为一家独立创业公司,Anthropic如何在Meta、xAI这些由万亿巨头支持的庞然大物之间生存?Dario的答案是 人才密度 和 资本效率。 “三年前,我们的融资额只有几亿美元,而OpenAI已经从微软拿了130亿。我们当时的逻辑是:如果别人花10亿能做到的事,我们花1亿就能做到,那么投资我们比投资他们资本效率高10倍。” 他认为,金钱只是一个暂时的短板,可以弥补;而用更少资源做出更好产品的内在能力,才是真正的护城河。如今,Anthropic手握近200亿美元融资,在数据中心的规模上,他自信不输给任何对手。 面对Mark Zuckerberg用高薪直接挖人的策略,Dario显得很冷静。他没有选择跟进,破坏公司内部公平的薪酬体系。他认为,这种做法破坏了企业文化,而且“你只能买走那些可以被买走的人”。 “他们在尝试购买一些买不到的东西,那就是对使命的认同感。” Dario说,Meta的挖角反而成了Anthropic的“团结时刻”,因为大部分员工都拒绝了天价offer,选择留下来。 个人经历:一切紧迫感的源头 要理解Dario Amodei,就必须回到他的个人经历。 在旧金山长大的他,对早期的互联网热潮毫无兴趣,一心想成为一名物理学家,去探索宇宙的基本真理。然而,父亲的离世彻底改变了他的人生轨迹。 “我父亲病了很久,在他去世后仅仅三四年,治愈他那种疾病的成功率就从50%飙升到了95%。” 这件事对他冲击巨大。一方面,他感受到了科技进步能拯救生命,另一方面,他也体会到了“如果能再快一点”的切肤之痛。这让他从理论物理转向了生物学,希望能亲自解决这些难题。 但在生物学领域,他再次感到了人类能力的局限。“生物系统的复杂性超越了人类的尺度,”他发现,只有AI这项技术,才有可能帮助人类跨越这个鸿沟。 于是,他最终投身AI。这条从“物理学”到“生物学”再到“人工智能”的道路,贯穿着一个核心母题——产生真正的影响力(Impact)。他想解决真正重要的问题,想阻止其他人经历他所经历的痛苦。 这种强烈的使命感也解释了他为何离开OpenAI。“当你为一个动机不真诚、不是真心想让世界变得更好的人工作时,你做的技术再好,最终也只是在为一个坏结果做贡献。” 在“末日论”与“加速主义”之间走钢丝 采访中最激烈的时刻,莫过于回应英伟达CEO黄仁勋的批评——“Dario认为只有他能安全地构建AI,因此想控制整个行业”。...

August 1, 2025 · 1 min · fisherdaddy

Anthropic 团队揭秘:Claude Code 如何革新工作流程,赋能开发与业务团队

本文介绍了 Anthropic 内部团队如何使用其自家的智能编程助手 Claude Code。报告指出,这类代理式编程工具不仅提升了传统开发工作的效率,更重要的是,它正在打破技术与非技术工作之间的界限,让任何能够描述问题的人都有能力构建解决方案。 主要内容 加速传统开发流程:Claude Code 能显著加快开发人员在代码导航、测试、调试和代码审查等环节的工作速度,自动化处理繁琐和重复性的任务。 赋能非技术人员:该工具使非技术背景的员工(如法务、市场营销人员)也能够构建定制化的工具和自动化流程,从而将想法快速转化为解决方案,无需深厚的编程知识。 重塑人机协作模式:最成功的应用案例是将 Claude Code 视为一个“思考伙伴”而非简单的代码生成器。通过人机协作,团队能够探索新的可能性、快速验证想法,从而增强整体工作流程和创新能力。 关键细节 代码导航与理解 新员工上手:基础设施团队的数据科学家通过向 Claude Code 提供整个代码库,能够快速理解数据管道依赖关系,其作用甚至取代了传统的数据目录工具。 快速定位:产品工程团队将 Claude Code 作为编程任务的“第一站”,用它来识别修复 bug 或开发新功能所需检查的文件,节省了手动查找上下文的时间。 测试与代码审查 自动化测试:产品设计团队使用 Claude Code 为新功能编写全面的单元测试,并通过 GitHub Actions 自动处理拉取请求 (Pull Request) 中的格式问题和测试用例重构。 跨语言测试:当推理团队需要在不熟悉的语言(如 Rust)中测试功能时,他们只需描述测试需求,Claude Code 就能生成相应的本地代码。 调试与故障排除 提升效率:安全工程团队在处理生产事故时,通过向 Claude Code 提供堆栈跟踪和文档,将问题诊断速度提升了 3 倍。 解决复杂问题:在一次 Kubernetes 集群故障中,数据基础设施团队通过向 Claude Code 提供仪表盘截图,成功定位了 pod IP 地址耗尽的问题,并获得了修复指令,在系统中断期间节省了 20 分钟的宝贵时间。 原型设计与功能开发 快速原型:产品设计团队将 Figma 设计文件交给 Claude Code,让其自主编写代码、运行测试并进行迭代,从而快速构建功能原型。 赋能数据科学家:不熟悉 TypeScript 的数据科学家利用 Claude Code,成功构建了用于可视化模型性能的完整 React 应用程序。 自动化与工作流程优化 营销自动化:增长营销团队构建了一个代理工作流,能在几分钟内处理包含数百个广告的 CSV 文件,并生成新的广告文案变体。 跨部门创新:法务团队利用 Claude Code 创建了一个“电话树”系统原型,用于帮助内部员工快速找到合适的律师,展示了非技术部门构建定制工具的能力。 原文 Anthropic的内部团队正在通过Claude Code转变其工作流程,使开发人员和非技术人员能够处理复杂项目、自动化任务,并弥合先前限制其生产力的技能差距。...

July 29, 2025 · 3 min · fisherdaddy

介绍一下 Claude 4

Anthropic 于2025年5月23日推出了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,它们在编码、高级推理和 AI 代理方面树立了新标准。Claude Opus 4 被誉为全球最佳编码模型,擅长处理复杂和长时间运行的任务,而 Claude Sonnet 4 则是对 Sonnet 3.7 的重大升级,在编码和推理方面表现卓越。两款模型都增强了工具使用、并行工具执行和记忆能力。此外,Claude Code 现已全面上市,旨在将 Claude 的强大功能融入开发工作流程。这些模型旨在成为能够维持完整上下文并专注于长期项目的“虚拟协作伙伴”。 模型性能与应用: Claude Opus 4: 在 SWE-bench 上得分 72.5% ,在 Terminal-bench 上得分 43.2% ,被 Cursor 、Replit 、Block 、Rakuten 和 Cognition 等公司认可为在编码和复杂问题解决方面的领先者,能够持续工作数小时。 Claude Sonnet 4: 在 SWE-bench 上得分 72.7% ,提供性能与效率的平衡。GitHub 将其作为 GitHub Copilot 中新编码代理的模型。Manus 、iGent 、Sourcegraph 和 Augment Code 等公司也对其在遵循复杂指令、自主应用开发和代码质量方面的提升表示赞赏。 新增功能: 工具使用与扩展思考: 两款模型均支持在扩展思考过程中使用工具(如网络搜索),实现推理与工具使用的交替。 并行工具执行: 能够同时使用多个工具。 记忆能力提升: 特别是 Opus 4 ,在获得本地文件访问权限时,能创建和维护“记忆文件”以存储关键信息,从而提升长期任务意识和连贯性(例如,在玩 Pokémon 时创建“导航指南”)。 行为改进: 相较于 Sonnet 3....

May 23, 2025 · 3 min · fisherdaddy

Anthropic 经济指数: 人工智能对软件开发的影响

本文由 Anthropic 发布,聚焦于 Claude 在编码相关任务中的应用情况。通过对 Claude.ai 和专用编码工具 Claude Code 上 500,000 次交互的分析,揭示了 AI 在编码实践中的新兴模式、应用领域及采纳趋势。 主要观点 AI 驱动编码自动化趋势显著:特别是在专用的 AI 编码工具(如 Claude Code)中,AI 更倾向于直接执行任务(自动化),而非仅仅辅助人类(增强)。 用户界面开发是 AI 编码的热点:开发者普遍使用 AI 构建面向用户的应用程序,如网页和移动应用的界面,这可能导致相关工作岗位面临更早的 AI 冲击。 初创企业在 AI 编码工具采纳上领先:与大型传统企业相比,初创企业更积极地采用尖端的 AI 编码工具,显示出更强的敏捷性。 软件开发领域的 AI 应用或为其他行业的先导指标:编码作为 AI 应用相对成熟的领域,其发展模式可能为预测 AI 在其他职业领域的影响提供参考。 关键细节 AI 使用模式:自动化与增强 在 Claude Code 上,79% 的对话被识别为“自动化”(AI 直接执行任务),而“增强”(AI 协作并提升人类能力)占 21%。相比之下,Claude.ai 的自动化比例为 49%。 “反馈循环”(Feedback Loop)模式(AI 自主完成任务,但需人类验证和纠错)在 Claude Code 上更为普遍(占交互的 35.8%),远高于 Claude.ai(21.3%)。 “指令式”(Directive)对话(AI 以最少用户交互完成任务)在 Claude Code 上也更高(43.8% vs 27.5%)。 所有增强模式(包括“学习”)在 Claude Code 上的比例均低于 Claude....

May 6, 2025 · 3 min · fisherdaddy