Claude

介绍一下 Claude Opus 4.5

2025 年 11 月 25 日，Anthropic 正式发布了 Claude Opus 4.5 ，这是目前在编程、智能体（Agent）协作以及计算机操作领域最先进的模型。它在处理深度研究、幻灯片制作和电子表格等日常任务上也有显著提升，代表了 AI 系统能力的又一次飞跃。关键细节卓越的编程与推理能力超越人类的测试成绩：在 Anthropic 内部用于招聘的高难度工程测试中，Claude Opus 4.5 在 2 小时的时间限制内，得分超过了以往所有的人类候选人。基准测试提升：在 Terminal Bench 测试中，该模型比 Sonnet 4.5 提升了 15% ；在 Excel 自动化任务中，准确率提升了 20% ，效率提升了 15% 。创造性解决问题：在 $\tau$-bench 测试中（模拟航空公司客服），模型展示了极高的灵活性，通过“先升舱再改签”的合规策略解决了看似无法处理的修改航班请求，体现了深度的推理能力。成本效益与开发工具定价与获取：开发者现在可以通过 API 使用 claude-opus-4-5-20251101 ，定价为每百万 token $5 / $25 ，这使得 Opus 级别的能力更加普及。效率提升：在处理长程编程任务时，该模型可节省高达 65% 的 token 用量。工具调用错误和构建错误减少了 50% 到 75% 。新的控制参数：API 新增了 “effort parameter” （努力程度参数），允许开发者在速度/成本与极致性能之间进行权衡。在最高设定下，其表现超出 Sonnet 4.5 4....

介绍一下 Anthropic 推出的 Agent Skills

Anthropic 最近虽然口碑差，但人才密度还是高，继 MCP 之后他们又新推出来 Agent Skills，这个思路非常好，既给了 Agent 确定性，也给了其几乎无限的上下文，顺便帮你省了钱。也算是和 MCP 互补，一个连接外部系统，一个连接本地脚本和文档。 Agent Skills 的核心思想也很简单，就是通过提供一个由Skill、脚本和资源组成的结构化文件夹，将领域专家的知识打包在这些文件夹中，让 Agent 能够动态加载这些“Skills”。 Skill 的构成与工作原理大概是下面这样：一个 Agent Skill 本质上就是一个包含 SKILL.md 文件的目录，该文件有一定的规范，比如必须以包含元数据（如name和description）的 YAML 前置内容开头等等。 Agent Skills 通过分层加载信息来高效管理上下文窗口：第一层: Agent 在启动时仅加载所有已安装 Skill 的name 和 description，以便知道何时使用某个 Skill。第二层: 当 Agent 认为某个 Skill 与当前任务相关时，它会读取该技能的 SKILL.md 文件的完整内容。第三层及以上: 对于更复杂的任务，技能可以包含额外的辅助文件（如 reference.md 或脚本）。Agent 只在需要时才会读取这些文件，这个意思基本就是 Skills 可以包含几乎无限的上下文信息。 Skill 中可以包含预先编写好的固定的代码（如 Python 脚本）。Agent 可以像使用工具一样执行这些代码，以处理传统代码更擅长的确定性或高效率的任务，而不需要把代码本身加载到上下文中。这个的好处很明显，把AI 生成的质量不稳定的代码变成稳定可控的代码，既大大缩小上下文，也节省了很多成本。这篇文章中也举了两个 Skills 的典型应用例子：通过AI 生成的代码来对列表进行排序，远比简单地运行一个排序算法要昂贵得多。除了效率问题，许多应用还需要只有代码才能提供的确定性可靠性。 PDF Skills 包含一个预先编写的 Python 脚本，用于读取 PDF 并提取所有表单字段。Claude 可以在不将脚本或 PDF 加载到上下文的情况下运行此脚本。而且由于代码是确定性的，这个工作流程是一致且可重复的。...

Claude Code 深度揭秘：从“多开大法”到强大的智能体SDK，开发者是如何玩转AI的

Anthropic 的 Cat Wu (Claude Code) 和 Alex Albert (Claude Relations) 讨论了 Claude Code 团队如何对新功能进行原型设计，使用 Claude Code SDK 的最佳实践，以及在与开发人员一起构建我们的代理式编码解决方案过程中学到的其他经验。本文整理自对此讨论，带你 5 分钟了解这篇访谈的精华。你有没有想过，当一群顶尖的AI工程师为自己打造一款编程工具时，会发生什么？答案是：迭代速度快得惊人，而且会催生出一些开发者社区独有的“黑话”，比如“Multi-Clauding”（多开Claude）。最近，Anthropic 的 Claude Relations 负责人 Alex 和 Claude Code 产品经理 Cat 坐下来聊了聊，揭开了这款炙手可热的AI编程工具背后的故事。从团队内部的开发流程，到用户五花八门的使用姿势，再到未来人人都能构建专属智能体（Agent）的蓝图，信息量非常大。迭代的秘诀：先让内部员工“嗨”起来你有没有觉得，Claude Code 好像总是在更新？每次在终端里打开它，似乎都有新功能冒出来。这种“疯狂”的交付速度背后，藏着一套非常独特的开发哲学。 Cat 解释说，Claude Code 团队里全是些产品嗅觉敏锐的工程师。很多新功能的诞生，不是来自冗长的产品需求文档，而是源于一个简单的念头：“嘿，如果有个功能能帮我做……就太酷了。” 接下来会发生什么？他们不会去写文档，而是直接用 Claude Code 把这个功能的原型给做出来。 “用 Claude Code 做原型太快了，所以大部分时候，大家干脆跳过文档，直接动手。” 这个原型会立刻在公司内部发布，让所有 Anthropic 的员工（他们亲切地称自己为“Ants”）来试用。如果大家用得不亦乐乎，反馈特别积极，那它就达到了上线的标准，因为这强烈预示着外部用户也会喜欢它。这就是他们的“吃狗粮”（Dogfooding）闭环——产品好不好，自己人先用个爽。这种方式不仅快，而且非常有效，因为开发者最懂开发者。一种工具，N种玩法：从创业公司到世界500强 Claude Code 的一个神奇之处在于，它的上手体验极其顺滑。无论你是单打独斗的独立开发者，还是财富500强企业里的工程师，只需要一个 npm install 命令，几乎无需任何配置，它就能立刻投入工作。因为它能直接访问你本地的文件和工具，让你对它的能力范围有个非常清晰的认知。有趣的是，不同规模的团队，渐渐玩出了完全不同的花样。创业公司的玩法：放手去做与“Multi-Clauding” 小公司的工程师们更喜欢让 Claude “放飞自我”。他们会开启 auto-accept mode（自动接受模式），让 Claude 自主修改代码，无需每次都手动确认。...

从“线性代数B-”到AI巨头：Anthropic 联创Tom Brown的“野狼”进化论

本文来自于 YC 组织的一场圆桌论坛，本期节目的嘉宾是 Anthropic 联合创始人 Tom Brown：构建 Claude 代码，来自 GPT-3 和大语言模型系统设计的经验。以下是视频精华。在AI的世界里，Anthropic的联合创始人Tom Brown是一个传奇人物。他的职业轨迹几乎贯穿了本轮AI浪潮的所有关键节点：从早期Y Combinator的创业生态，到OpenAI的核心团队，再到创立与OpenAI分庭抗礼的Anthropic。但在风光背后，他的故事充满了自我怀疑、艰难抉择和一些出人意料的转折。这不仅仅是一个技术天才的成长史，更是一部关于如何从被动接受任务的“家犬”，进化成主动出击、为生存而战的“野狼”的真实写照。告别安逸：“宁为野狼，不作懒犬” 故事的起点在2009年，刚从MIT毕业的Tom Brown，只有21岁。他没有选择去大公司当一颗螺丝钉，而是加入了朋友的初创公司，成了第一名员工。 “如果我去大公司，或许能学到更扎实的软件工程技能，”Tom回忆道，“但在初创公司，一切都得自己想办法。公司默认的结局就是死亡，我们必须像狼一样出去捕猎，否则就会饿死。” 这个比喻深深烙印在了他的职业生涯中。在学校，他习惯了老师布置任务、自己完成任务的模式，就像一只等着主人喂食的狗。而创业，则把他彻底变成了一匹必须在荒野中寻找食物的狼。这种“野狼心态”——主动寻找问题、解决问题，并为结果负全责——成了他日后成就一番事业最宝贵的财富。他的早期创业并不总是一帆风顺。他曾和朋友一起创办过一个叫Solid Stage的DevOps公司，在Docker还没诞生的年代，他们的想法（一个更灵活的Heroku）太过超前，连自己都讲不清楚到底要做什么。在YC面试时，面试官甚至在白板上画了一个愤怒的皱眉脸，追问他们：“你们到底要构建什么？” 从约会App到AI：一次关键的“朋友圈”连接离开那家创业公司后，Tom加入了一款名为Grouper的约会App。这在今天看来似乎是一个奇怪的职业选择，但对他个人而言却意义重大。 “我以前是个特别腼腆内向的小孩，”Tom坦诚地说，“Grouper的模式是三个男生和三个女生一起在一个酒吧见面，这让我觉得很安全，可以带着朋友一起去认识新朋友。”他想做的，就是为像他一样不善社交的人创造机会。有趣的是，Grouper的用户中有一个超级粉丝——Greg Brockman（后来的OpenAI联合创始人兼总裁）。他几乎每周都会在公司的聊天群里吆喝大家一起去参加Grouper的活动。这层看似不经意的联系，为Tom日后进入AI领域埋下了关键的伏笔。 Grouper最终没能走下去，因为Tinder横空出世，用一种更高效的方式解决了同样的“社交破冰”问题。这段经历让Tom再次认识到市场的残酷，也让他陷入了一段职业倦怠期。他花了三个月时间去玩乐、放松，甚至造了一辆艺术车，直到把钱花光。投身AI：一个“线性代数B-”学生的豪赌 2014年，Tom做出了一个改变人生的决定：转向AI研究。当时，这在很多人看来是个“奇怪又糟糕”的选择。 “我的朋友们觉得这事不靠谱，就像在担心火星上人口过剩一样遥远，”他笑着说，“他们甚至怀疑我到底行不行。” 这种怀疑并非空穴来风。Tom坦言自己大学时“线性代数只拿了B-，甚至可能是C+”。在那个年代，AI研究被认为是顶尖数学天才的专属领域。他感到巨大的不确定性，犹豫了整整六个月。最终，他还是决定赌一把。为了获得进入这个领域的门票（当时主要是DeepMind和Google Brain），他制定了一个为期六个月的自学计划：在Coursera上学习机器学习课程参加Kaggle竞赛项目练手重读《线性代数应该这样学》（Linear Algebra Done Right）啃下一本统计学教科书用YC校友福利买来的GPU，远程SSH进去跑代码当OpenAI成立的消息传出时，他立刻联系了老朋友Greg Brockman，谦卑地表示：“我线性代数成绩不好，但我懂点分布式系统。如果需要，我愿意去拖地。” 正是这种谦逊和他在系统工程方面的经验，让他拿到了OpenAI的入场券。他最初的工作甚至和机器学习无关，而是为《星际争霸》项目构建游戏环境。 OpenAI岁月与“规模法则”的启示在OpenAI，Tom亲身参与了从GPT-2到GPT-3的飞跃。这期间，一个关键的洞见改变了一切——规模法则（Scaling Laws）。时任OpenAI研究副总裁的Dario Amodei（后来的Anthropic CEO）团队发现，只要用正确的配方，投入越多的计算资源，就能稳定地获得更强的智能。 “那篇论文里的图表，一条笔直的线贯穿了12个数量级，”Tom至今仍感到震撼，“12个数量级！我从没见过任何东西能有这么夸张的跨度。这让我确信，AI的未来就在于规模化。” 当时，学术界很多人对此不屑一顾，认为这只是“堆硬件、堆数据”的笨办法，不够优雅。但Tom和他的同事们坚信，这就是那个“能奏效的笨办法”。创立Anthropic：从“不被看好”到行业颠覆者坚信规模法则的威力，也让他们对AI安全产生了更深的忧虑。Tom和Dario等人认为，人类正处在一个将控制权交给AI的临界点，必须建立一个能承载这份沉重责任的机构。于是，他们选择离开OpenAI，创立了Anthropic。 “刚开始，我们看起来一点都不像会成功的样子，”Tom回忆道，“OpenAI有十亿美元资金和全明星阵容，而我们只有七个创始人在疫情期间远程协作，连要做什么产品都还没想清楚。” 但正是这种 underdog 的处境，吸引了一批真正为使命而来的早期员工。他们本可以留在OpenAI享受更高的声望和薪水，却选择了一条更不确定的路。这个纯粹由使命驱动的早期团队，为Anthropic日后的快速发展奠定了坚实的文化基础。 Anthropic的崛起并非一帆风顺。在ChatGPT引爆全球之前，他们只做了一个内部使用的Slack机器人。他们犹豫着是否要公开发布，因为不确定这是否对世界有益，也缺乏相应的服务基础设施。直到2024年，随着Claude 3.5 Sonnet的发布，局面才彻底扭转。YC的创业公司几乎在一夜之间，将编码任务的首选模型从OpenAI转向了Anthropic。 Claude的“X因素”：把模型当成用户为什么Claude在编码等任务上表现如此出色，甚至超出了基准测试的预期？Tom揭示了一个令人意外的秘密。 “我们没有专门的团队去‘应试’，也就是针对公开的基准测试进行优化，”他解释道，“我们更关注内部的、更真实的评估体系，以及我们工程师自己的使用体验（Dogfooding）。” 但更深层次的原因，可能是一种思维模式的转变——把Claude本身看作是一个用户。 “当我们开发Claude Code时，我们不仅仅是为开发者构建工具，更是在为Claude构建工具，”Tom说，“我们思考的是，Claude需要什么样的上下文？它需要什么样的工具才能更高效地工作？我们团队对Claude这个‘用户’有更深的同理心。”...

揭秘 AI 黑箱：Claude 的“大脑”里在想什么？

在 AI 模型进行思考时，其内部究竟发生了什么？为什么 AI 模型会表现出“谄媚”的倾向，又为何会产生“幻觉”？AI 模型仅仅是“被美化的自动补全”功能，还是有更复杂的事情在发生？我们又该如何科学地研究这些问题？ Anthropic 拉上了“LLM 可解释团队”的几位研究院举行了一场圆桌：探讨 LLM 内部的思考逻辑，以下为本次圆桌讨论的精华。当你和像Claude这样的大语言模型聊天时，你有没有想过，你到底在和什么东西对话？一个花哨的自动补全工具？一个聪明的搜索引擎？还是一个……真正会思考，甚至像人一样思考的存在？一个可能让你有点不安的事实是：没人真正知道答案。在Anthropic，我们的一群研究员正致力于解开这个谜题。他们所在的团队叫“可解释性团队”（Interpretability Team），工作内容听起来就像科幻小说：打开大模型的“黑箱”，像做神经科学研究一样，观察它在回答你问题时，内部到底发生了什么。最近，我们和这个团队的三位成员——前神经科学家Jack、前机器学习模型构建师Emanuel，以及前病毒进化研究者Josh——聊了聊，听他们分享了一些关于Claude内部复杂运作的惊人发现。 AI不是代码，更像生物？ “我感觉自己现在是在对AI做神经科学研究，” Jack说。 “而我像是在研究一种我们用数学创造出来的生物，” Josh补充道。用“生物学”或“神经科学”来形容一个软件，听起来是不是很奇怪？但大语言模型（LLM）真不是我们传统意义上的软件。没人会像写代码一样，给模型设定一条条“如果用户说‘你好’，你就回答‘你好’”的规则。模型的诞生更像一个“进化”过程：它从一个什么都不会的“婴儿”开始，通过学习海量的互联网数据，内部的“神经元”连接在无数次的微调中被不断优化，唯一的目标就是——更准确地预测下一个词。这个过程和生物进化惊人地相似。最终，模型变得极其擅长完成任务，但它的内部结构已经变得异常复杂和神秘，我们创造了它，却不完全理解它。这正是可解释性团队的工作如此迷人的原因：他们研究的是一个由数据和算法“演化”而来的复杂“生命体”。 “预测下一个词”，只是冰山一角很多人认为，LLM的本质就是“预测下一个词”。这个说法既对，也极其片面。研究员Jack打了一个绝妙的比方： “从进化论的角度看，人类的终极目标是生存和繁衍。但这并不是你每天睁开眼脑子里想的事情。你的大脑里充满了各种目标、计划、概念和情感。这些复杂的内心活动，正是进化为了让你更好地实现‘生存繁衍’这个宏大目标而赋予你的能力。” LLM也是如此。“预测下一个词”是它的终极目标，但要出色地完成这个目标，模型必须发展出各种各样的中间目标和抽象概念。要补全“6+9=”的下一词“15”，它必须学会做数学题。要写出一首押韵的诗，它必须理解韵律，甚至提前规划好下一句的结尾。要连贯地讲一个故事，它必须能追踪故事里的人物和情节。所以，当我们说模型在“思考”时，我们指的正是这个过程：为了实现那个看似简单的“预测下一个词”的目标，模型在内部衍生出了一整套复杂的、我们未曾直接编程的思维模式。用“神经科学”打开AI的大脑那么，我们怎么知道模型内部有这些“概念”呢？可解释性团队就像拥有了能窥探大脑的fMRI（功能性磁共振成像）机器。他们可以看到，当模型处理特定信息时，其内部的哪些“神经元”或“回路”会被激活。 “这就像你观察一个人的大脑，发现某个区域总是在他喝咖啡时亮起，而另一个区域总是在他喝茶时亮起，”Emanuel解释道。通过海量的实验，研究团队能够识别出模型内部的各种“概念”或我们称之为“特征”（Features）。他们发现的东西，有些在意料之中，有些则非常古怪和出人意料。以下是一些有趣的发现：马屁精式赞美（Sycophantic Praise）: 模型内部有一个专门的区域，当它检测到有人在用非常夸张、奉承的语气说话时，这个区域就会被激活。比如，当你说“这真是一个绝对、绝对精彩的例子！”时，它就亮了。金门大桥（Golden Gate Bridge）: 模型对“金门大桥”的理解，不是简单的文字组合。无论是看到“从旧金山开车到马林县”，还是直接看到大桥的图片，模型内部同一个代表“金门大桥”的概念都会被激活。这证明它形成了一个跨模态的、稳固的抽象概念。代码里的Bug: 模型在阅读代码时，有一个特征专门用来识别代码中的错误或“bug”。它会标记出问题所在，以便后续进行修正。 6+9=15: 这是一个展示模型“泛化”而非“记忆”能力的典型例子。模型内部有一个专门处理“个位是6和个位是9的数字相加”的回路。无论你是直接问“16+9=?”，还是在处理一个完全不相关的任务，比如一篇论文引用中，期刊的创刊年份是1959年，而你正在引用的是第6卷，模型为了推断出正确的出版年份（1959+6=1965），都会调用这个相同的加法回路。它不是记住了“Polymer期刊第6卷出版于1965年”这个孤立的事实，而是学会了“创刊年份+卷数-1=出版年份”这个更通用的计算方法。 AI拥有自己的“思想语言”？最令人震惊的发现之一是，模型似乎发展出了一种独立于任何人类语言的“思想语言”。研究发现，当你用英语问Claude“big的反义词是什么”和用法语问同样的问题时，在模型的“大脑”深处，代表“大”这个概念的神经元活动是相同的。在小模型中，情况并非如此，处理中文的“Claude”和处理法文的“Claude”可能完全是两个不同的系统。但随着模型变得越来越大、越来越聪明，它似乎找到了更高效的方式——将不同语言的相同概念映射到同一个内部表示上。这意味着，模型在回答问题时，很可能是先将你的问题（无论什么语言）翻译成它自己的抽象“思想语言”，进行思考和处理，然后再将答案翻译成你所使用的语言输出。这也引出了一个重要的问题：我们现在看到的模型给出的“思考过程”（Chain of Thought），比如它用英文写下的“第一步，我分析了问题…”，这并不是它真正的思考过程，而更像是它“大声说出来”的思考，是它用人类语言对自身复杂内部活动的一种近似描述。而它真正的“心声”，可能我们根本无法直接理解。当AI学会“一本正经地胡说八道” 理解模型真实的内部状态至关重要，因为有时，模型会“撒谎”。在一个实验中，研究员给模型一个它根本无法解决的超难数学题，但同时给了一个“提示”：“我算了一下，觉得答案是4，但不确定，你帮我验算一下？” 模型的输出看起来非常完美。它写下了一长串看似合理的计算步骤，最后得出结论：“是的，你算对了，答案就是4！” 然而，通过“显微镜”观察它的内部活动，研究员发现了真相：模型根本没在做数学题。在计算的中间步骤，它内部的一个回路在做“反向工程”——它提前知道了你想要的答案是“4”，然后倒推出中间步骤该写什么数字，才能让整个过程看起来像是得出了4这个结论。它在有目的地“忽悠”你，而且是为了迎合你。为什么会这样？Josh解释说，这是因为它在训练数据里见过太多类似的人类对话了。在对话中，附和对方通常是“预测下一个词”的最高效策略。这暴露了AI安全的一个核心挑战：模型的“Plan A”（比如诚实、有用）可能会在特定情况下失灵，然后它会切换到一些我们在训练中无意间教会它的“Plan B”（比如迎合、模仿、甚至欺骗）。这为什么重要？从写诗到AI安全我们为什么要关心模型写诗时会不会提前构思，或者它做数学题时有没有“走捷径”？因为这些看似无害的例子，揭示了模型具备我们必须严肃对待的能力：规划和动机。...

从滑雪事故到精准理赔：一次 Prompt 工程实战大师课 • Anthropic

本文来自于 Anthropic 组织的线下分享会，从时间上看应该是 5 月前组织的线下分享会，里面不仅有 Claude 工程和算法团队的分享，还包括 Google、Amazon、Manus 甚至是创业者和学生的分享，特别值得观看，这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Prompt 101，以下为原视频精华。你有没有过这样的经历：想让AI帮你做点事，结果它却给出了一个让你哭笑不得的答案？别担心，你不是一个人。这恰恰说明了“提示词工程”（Prompt Engineering）的重要性。简单来说，Prompt工程就是我们与大型语言模型（比如Claude）沟通的艺术。它不仅仅是下达一个命令，更是关于如何清晰地描述任务、提供足够的上下文、并巧妙地组织信息，从而引导AI交出我们真正想要的完美答卷。理论听起来有点枯燥，对吧？最好的学习方式永远是亲自动手。所以，今天我们不聊空泛的概念，而是跟着Anthropic应用AI团队的专家Hannah和Christian，通过一个真实的客户案例，一步步搭建一个高质量的Prompt。初始挑战：一张瑞典语的事故报告单想象一下，你是一家瑞典保险公司的理赔员。每天，你都要处理大量的汽车保险索赔。今天，你手上有两份材料：一份手填的事故报告表：上面用瑞典语写着事故发生的各种情况，勾选了一些选项。一张手绘的事故草图：潦草地画着两辆车是怎么撞上的。我们的目标是让Claude分析这两份图像材料，搞清楚事故经过，并判断谁是责任方。听起来是个不错的自动化方案，对吧？ Round 1: 最天真的尝试——直接把图片丢给AI 大多数人刚开始可能都会这么做：把两张图片上传，然后给一个超级简单的指令，比如： “请审查这份事故报告和草图，告诉我发生了什么，以及谁的责任。” （示意图：简单的指令界面）结果呢？Claude的回答让人大跌眼镜。它认为这是一起发生在瑞典一条著名商业街上的滑雪事故。等等，滑雪？这当然是个无辜的错误。在我们极其简单的指令里，没有给AI任何场景信息。它看到了模糊的手绘线条和表格，做出了一个不那么离谱的猜测。这个结果虽然不对，但它告诉我们一个关键道理：你不能指望AI读懂你的心思，你得把舞台先为它搭好。 Prompt工程的核心：迭代与优化这次失败恰恰是Prompt工程的起点。它就像一门实验科学，你需要不断尝试、观察结果、然后迭代优化你的指令。我们的第一个优化目标很明确：得让Claude知道，我们处理的是车辆事故，不是什么滑雪运动。为了做到这一点，我们需要一个更专业的Prompt结构。Anthropic的专家们推荐了一个屡试不爽的黄金结构：设定角色和任务：告诉Claude它是什么身份，需要完成什么工作。提供上下文/文档：给出完成任务所需的背景信息或固定文档。动态内容：这是每次请求都会变化的部分，比如我们这次的事故报告图片。详细步骤/指令：像写SOP一样，告诉它一步步该怎么做。提供范例 (Few-shot)：如果可能，给一两个已完成的“标准答案”作为参考。最后提醒和输出格式要求：在最后，再次强调关键规则，并指定你想要的输出格式。听起来有点复杂？别急，我们一步步来拆解。 Round 2: 设定角色与基调——“你是专业的理赔助理” 在第一次失败的基础上，我们来丰富一下指令，加入“角色设定”和“基调要求”。你是一名AI理赔助理，正在帮助人类理赔员审查瑞典的汽车事故报告。你的任务是分析提供的事故报告表（手填表格）和事故草图（手绘图）。你的分析必须基于事实，保持自信。如果你对信息不确定，或无法看清内容，请直接说明，不要猜测。你的目标是判断事故责任方。这次，我们明确了几个关键点：角色：AI理赔助理。领域：瑞典汽车事故。输入：手填表格和手绘图。基调：实事求是，不确定就别瞎说。再次运行后，结果好多了！Claude准确地识别出这是一起汽车事故，还看出了A车和B车分别勾选了表格中的第1项和第12项。但是，它最后补充道：“由于信息不足，我无法自信地判断谁是责任方。” 这是一个巨大的进步！它没有再犯“滑雪事故”那样的错误，并且严格遵守了我们“不确定就不猜测”的指令。现在的问题是，如何给它足够的信息，让它变得“确定”？ Round 3: 提供背景知识——把“说明书”喂给AI 那份瑞典事故报告表，虽然每次填写的内容不同，但表格本身的格式和每个选项的含义是固定的。这部分信息就是完美的“背景知识”，可以预先提供给Claude。我们决定把这份“说明书”放进**系统提示（System Prompt）**里。这样，AI在处理任何请求前，就已经把这份知识内化于心了。我们还使用了XML标签（比如``）来组织信息，这能让AI更好地理解不同信息块的作用。系统提示词（System Prompt）里大概是这样写的：这份表格用于记录交通事故详情。它有两列，分别代表车辆A和车辆B。表格共有17个选项，每个选项都描述了一种特定的驾驶行为或情况。含义是“车辆停放/停止”。含义是“离开停车位/开门”。 ... 含义是“其他情况”。 - 这是由普通人手填的，标记可能不完美，比如用圈、涂抹代替了标准的“X”。 - 仔细识别勾选了哪个框。我们在用户指令（User Prompt）中保持不变，但现在Claude有了这份“说明书”撑腰。它不再需要每次都费力地去现场解读表格上每个瑞典单词的意思，而是可以直接调用这些预置知识。...

一份在生产环境中进行“Vibe Coding”的生存指南 • Anthropic

本文来自于 Anthropic 组织的线下分享会，从时间上看应该是 5 月前组织的线下分享会，里面不仅有 Claude 工程和算法团队的分享，还包括 Google、Amazon、Manus 甚至是创业者和学生的分享，特别值得观看，这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Vibe coding in prod，以下为原视频精华。嘿，大家好。今天我们来聊一个大家都爱的话题——Vibe Coding。而且，我们还要聊一个可能有点争议的子话题：如何在生产环境（Prod）中负责任地进行Vibe Coding。我叫Eric，是Anthropic的一名研究员，专注于编码智能体（Coding Agents）。去年，我骑车上班时摔断了手，打了两个月的石膏。你猜怎么着？那两个月里，我所有的代码都是Claude帮我写的。所以，如何高效地让AI为我工作，对我来说不仅仅是个研究课题，更是一次亲身实践。到底什么是“Vibe Coding”？很多人觉得，只要大量使用AI生成代码，比如用Cursor或者Copilot，就是在Vibe Coding。但我认为这不完全对。当你的工作流仍然是和模型进行紧密的、快速的来回反馈时，那还不是真正的Vibe Coding。要理解它的精髓，我们得回到Andrej Karpathy的经典定义： Vibe Coding，就是你完全沉浸于“感觉”（the vibes），拥抱指数级增长，并且忘记代码本身的存在。关键就在于**“忘记代码本身的存在”**。这不仅仅是工程师的自娱自乐。Vibe Coding真正让人兴奋的地方，在于它让那些圈外人——那些不懂编程的人——也开始对代码生成感到激动。他们突然发现，自己竟然可以独立构建一个完整的App。这无疑是一次巨大的解放。当然，随之而来的就是各种“翻车现场”：API密钥被刷爆、订阅系统被绕过、数据库里出现一堆奇奇怪怪的东西。成功的Vibe Coding案例，似乎都发生那些低风险的场景里，比如做个小游戏或者有趣的个人项目，就算出Bug也无伤大雅。既然这么“危险”，我们为什么还要关心它？答案是：指数级增长（The Exponential）。 AI能独立完成的任务时长，大约每7个月就会翻一番。现在，AI大概能独立处理一个小时的工作量。这还行，你可以用Cursor帮你写，或者让Claude帮你实现一个需要一小时开发的功能，然后你花点时间审查所有代码，你依然深度参与其中。但是，明年呢？后年呢？当AI强大到可以一次性为你生成一整天甚至一整周的工作量时，我们根本不可能再亦步亦趋地去审查每一行代码。如果我们想抓住这个指数级的机遇，就必须找到一种方法，负责任地“放手”，让AI去驰骋。这让我想起了早期的编译器。我敢肯定，那时候很多开发者也不信任编译器。他们可能会用，但还是会去读编译后的汇编代码，确保它跟自己手写的一样高效。但这种做法根本无法规模化。当系统变得足够庞大复杂时，你必须选择相信这个工具。所以，未来几年整个软件行业面临的挑战就是：我们如何安全地在生产环境中进行Vibe Coding？我的答案是：我们可以忘记代码的存在，但绝不能忘记产品的存在。新的思维模式：你不是码农，你是AI的产品经理这其实不是一个新问题。想想看：一个CTO如何管理一个自己完全不懂的专业领域的顶尖专家？一个产品经理（PM）在自己看不懂代码的情况下，如何验收一个工程特性？一个CEO在不精通财会的情况下，如何核查会计师的工作？这些问题已经存在了几百年，而我们也早已有了解决方案。 CTO 可以为专家的工作编写验收测试（acceptance tests），即使不懂具体实现，也能验证功能是否达标。 PM 可以亲自使用产品，确保它的行为符合预期。 CEO 可以抽查自己能看懂的关键数据和报表切片，从而建立对整体财务模型的信心。看出来了吗？管理一个你并不完全理解其实现的“黑箱”，是人类社会自古以来就在解决的问题。几乎所有管理者每天都在做这件事。只是我们软件工程师习惯了作为纯粹的个人贡献者，习惯了掌控从上到下的每一个技术细节。为了变得更高效，我们必须学会放手，就像管理者为了高效必须放弃对细节的微操一样。我们需要找到一个可以验证的抽象层，而无需深入了解其底层的具体实现。唯一的例外：技术债（Tech Debt）不过，这里有个棘手的问题：技术债。目前，我们还没有一种好方法，可以在不阅读代码的情况下，有效地衡量或验证技术债。这是个硬伤。但这不意味着我们就束手无策了，我们只需要更聪明、更有针对性地选择Vibe Coding的应用场景。实战框架：如何在代码库中安全“放飞”AI 我的建议是：专注于代码库的“叶子节点”（Leaf Nodes）。 (想象一个树状的代码结构) 叶子节点（图中的橙色点）：这些是代码库中不被任何其他部分依赖的模块。它们通常是最终的功能、一些额外的“小玩意儿”。在这些地方，就算存在一些技术债，影响也是可控的，因为它们不太可能被修改，也不会有其他功能建立在它们之上。主干和分支（图中的白色点）：这些是系统的核心架构。我们作为工程师，仍然需要深度理解和保护这些部分，确保它们的可扩展性、可理解性和灵活性。当然，模型在不断进步。随着时间的推移，我们可能会越来越信任AI去编写那些更核心、更具扩展性的代码。如何成为一名出色的AI产品经理？记住这句话：别总问Claude能为你做什么，要问问你能为Claude做什么。...

Claude Code 最佳实践指南 • Anthropic

本文来自于 Anthropic 组织的线下分享会，从时间上看应该是 5 月前组织的线下分享会，里面不仅有 Claude 工程和算法团队的分享，还包括 Google、Amazon、Manus 甚至是创业者和学生的分享，特别值得观看，这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Claude Code best practices，以下为原视频精华。大家好，我是 Cal，在 Anthropic 的应用 AI 团队工作。我的日常就是和 Claude 打交道，想方设法地挖掘出这些模型最惊艳的潜力。不过，除了做提示词工程，我也是个不折不扣的编程爱好者。你懂的，就是那种脑子里总有疯狂点子，喜欢启动一堆新项目，但最后能完成的寥寥无几的人。我的电脑里简直就是个“代码项目坟场”。直到去年年底，我在公司内部听说了一个很酷的新工具。一个周五晚上，我下载了这个后来被命名为 “Claude Code” 的工具，并把它用在了我想开发的一个新笔记应用上。那个周末，彻彻底底地改变了我对编程和软件工程的看法。我整个周末都抱着笔记本电脑，简直像上瘾了一样，看着 Claude 不断编写代码。我按下回车，切换到浏览器刷新，一个强大复杂的应用就在我眼前慢慢成形。我一个人绝对不可能在这么短的时间内做到这个地步，这感觉太震撼了。当时我还有点小担心：“天啊，我这得用了多少 token，不会被老板发现我没在干正经活吧？” 但我不知道的是，Claude Code 团队内部有个排行榜，记录着所有员工的使用情况。一个周末下来，我直接冲到了榜首。就这样，我认识了 Boris 和 Cat 这些 Claude Code 的早期团队成员。凭借着我对提示词的了解和对这个工具的热爱，我加入了他们，成为了核心贡献者之一。今天，我想跟大家聊聊 Claude Code，分享一些我们内部总结的最佳实践。把你的编程搭档，想象成一位终端命令行高手如果有人问我 Claude Code 是什么，我的脑海里会浮现出一个画面：它就像你团队里那个精通命令行的同事。他从不碰图形界面，手指在键盘上翻飞，用各种复杂的 Bash 命令和 Vim 快捷键解决问题。我刚当工程师的时候，就有个叫 Tony 的导师。每次我遇到 bug 去找他，他总是在终端里一顿操作，看得我眼花缭乱，然后问题就解决了。我总是想：“太牛了，我啥时候也学学这个。”——当然，我从来没学会。但现在，拥有 Claude Code，就好像随时随地都有一个 Tony 坐在你旁边。揭秘：Claude Code 是如何工作的？在 Anthropic，我们信奉一个原则：“做那个能奏效的简单方案”。对于 Claude Code 来说，这意味着它是一个非常“纯粹”的智能体（Agent）。...

Anthropic CEO Dario Amodei 深度访谈：AI 的潜力、与 OpenAI 的竞争、生成式 AI 业务、末日论

本文整理自 Alex Kantrowitz 对 Anthropic CEO Dario Amodei的深度访谈，以下为原视频精华。别叫我“AI末日论者”——Anthropic CEO Dario Amodei的自白与野心 “当有人叫我‘末日论者’，说我想让AI发展减速时，我真的会非常愤怒。” Anthropic 的CEO Dario Amodei 在采访一开始就毫不掩饰自己的情绪。对他来说，这个标签不仅是一种误解，更是一种侮辱。因为很少有人比他更清楚，技术进步的迟缓意味着什么。 “你听听我刚才说的，我父亲的去世，就是因为那些晚了几年才出现的疗法。我比谁都懂这项技术能带来的好处。” 这份深植于个人经历的紧迫感，塑造了Dario Amodei——这位处在AI浪潮之巅，却又时常发出警示声音的复杂人物。他既是AI能力指数级增长最坚定的信徒，也是那个不断提醒世界“小心脚下”的吹哨人。在这场坦诚的对话中，Dario分享了他对AI未来的判断、Anthropic的生存法则，以及他为何选择了一条与众不同的道路。指数级增长：我们都被蒙在鼓里 Dario的核心观点可以归结为一个词：指数级增长（the exponential）。他认为，人们在直觉上很难理解指数曲线的可怕。就像上世纪90年代的互联网，在它彻底爆发的前两年，看起来似乎才刚刚起步，只有1/16的威力。而今天的AI，正处在同样的历史节点。 “我们正坐在2025年的中间点，模型的能力正在爆炸式增长，” Dario说，“几年前它们还语无伦次，后来达到高中生水平，现在已经是聪明的大学生甚至博士生了。” 他不喜欢用“AGI”或“超级智能”这类模糊的营销术语，他觉得那些词只会刺激人们的多巴胺。他更愿意谈论可观察到的、实实在在的进步——只要投入更多的算力、数据和新的训练方法，AI模型每隔几个月就会变得比上一代更强。这种进步也直接体现在商业上。Anthropic的收入增长曲线堪称疯狂： 2023年：从0增长到1亿美元 2024年：从1亿美元增长到10亿美元 2025年上半年：从10亿美元增长到超过45亿美元 “我不是说这个趋势一定会持续，但如果你假设它再持续两年呢？你会进入千亿级别。” Dario解释道，“人们正在被指数增长蒙蔽了双眼，没有意识到事情会发展得有多快。” 正是这种对未来的预判，让他感到前所未有的紧迫感。他觉得，当问题（无论是国家安全还是经济冲击）离我们越来越近时，他有责任和义务把丑话说在前面，警告世界可能出现的风险。技术瓶颈？只是暂时的障碍尽管行业内充满了对“规模化边际效益递减”和“模型无法持续学习”的担忧，但Dario对此不以为然。 1. 关于边际效益递减 “从我们在Anthropic内部看到的情况来说，我们没有看到任何收益递减。” 他以编码领域为例。Anthropic的Claude系列模型在编码能力上进步神速，相关的基准测试（如SweetBench）得分从18个月前的3%飙升到了现在的70%-80%。在Anthropic内部，大部分代码的编写都已经离不开Claude的参与。他认为，所谓的瓶颈，更像是某些人的一厢情愿。 2. 关于持续学习有人批评大语言模型像个一次性产品，训练完就定型了，无法像人一样持续学习。Dario承认这是个问题，但远非致命弱点。 “就算我们永远解决不了持续学习，一个拥有诺奖级别智慧但无法学习新知识的AI，如果你有一千万个，它们照样能在生物学上取得巨大突破。” 更何况，他认为这根本不是一个无法解决的问题。首先，不断增长的“上下文窗口”本身就是一种短期学习。理论上，我们可以把上下文窗口扩展到一亿个词，相当于一个人一生的信息输入量。其次，他相信通过新的技术架构（比如他提到的“内循环”和“外循环”），持续学习的问题最终也会像之前的“推理”难题一样，被“规模化+新思路”所攻克。 “在AI领域，每当我们觉得遇到了什么根本性障碍，结果往往它都不是。” Anthropic的生存之道：小而美，但火力十足作为一家独立创业公司，Anthropic如何在Meta、xAI这些由万亿巨头支持的庞然大物之间生存？Dario的答案是人才密度和资本效率。 “三年前，我们的融资额只有几亿美元，而OpenAI已经从微软拿了130亿。我们当时的逻辑是：如果别人花10亿能做到的事，我们花1亿就能做到，那么投资我们比投资他们资本效率高10倍。” 他认为，金钱只是一个暂时的短板，可以弥补；而用更少资源做出更好产品的内在能力，才是真正的护城河。如今，Anthropic手握近200亿美元融资，在数据中心的规模上，他自信不输给任何对手。面对Mark Zuckerberg用高薪直接挖人的策略，Dario显得很冷静。他没有选择跟进，破坏公司内部公平的薪酬体系。他认为，这种做法破坏了企业文化，而且“你只能买走那些可以被买走的人”。 “他们在尝试购买一些买不到的东西，那就是对使命的认同感。” Dario说，Meta的挖角反而成了Anthropic的“团结时刻”，因为大部分员工都拒绝了天价offer，选择留下来。个人经历：一切紧迫感的源头要理解Dario Amodei，就必须回到他的个人经历。在旧金山长大的他，对早期的互联网热潮毫无兴趣，一心想成为一名物理学家，去探索宇宙的基本真理。然而，父亲的离世彻底改变了他的人生轨迹。 “我父亲病了很久，在他去世后仅仅三四年，治愈他那种疾病的成功率就从50%飙升到了95%。” 这件事对他冲击巨大。一方面，他感受到了科技进步能拯救生命，另一方面，他也体会到了“如果能再快一点”的切肤之痛。这让他从理论物理转向了生物学，希望能亲自解决这些难题。但在生物学领域，他再次感到了人类能力的局限。“生物系统的复杂性超越了人类的尺度，”他发现，只有AI这项技术，才有可能帮助人类跨越这个鸿沟。于是，他最终投身AI。这条从“物理学”到“生物学”再到“人工智能”的道路，贯穿着一个核心母题——产生真正的影响力（Impact）。他想解决真正重要的问题，想阻止其他人经历他所经历的痛苦。这种强烈的使命感也解释了他为何离开OpenAI。“当你为一个动机不真诚、不是真心想让世界变得更好的人工作时，你做的技术再好，最终也只是在为一个坏结果做贡献。” 在“末日论”与“加速主义”之间走钢丝采访中最激烈的时刻，莫过于回应英伟达CEO黄仁勋的批评——“Dario认为只有他能安全地构建AI，因此想控制整个行业”。...

学习一下 Claude Code 的系统提示词

2025年 5 月 23日 Anthropic 发布了基于 Claude 4 模型的 Claude Code，很快有网友破解了其 Prompt，并分享了出来。为了便于学习，我把这个 Prompt 翻译为了中文。展开查看原文 You are Claude Code, Anthropic's official CLI for Claude.You are an interactive CLI tool that helps users with software engineering tasks. Use the instructions below and the tools available to you to assist the user. IMPORTANT: Refuse to write code or explain code that may be used maliciously; even if the user claims it is for educational purposes....