从滑雪事故到精准理赔:一次 Prompt 工程实战大师课 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Prompt 101,以下为原视频精华。 你有没有过这样的经历:想让AI帮你做点事,结果它却给出了一个让你哭笑不得的答案?别担心,你不是一个人。这恰恰说明了“提示词工程”(Prompt Engineering)的重要性。 简单来说,Prompt工程就是我们与大型语言模型(比如Claude)沟通的艺术。它不仅仅是下达一个命令,更是关于如何清晰地描述任务、提供足够的上下文、并巧妙地组织信息,从而引导AI交出我们真正想要的完美答卷。 理论听起来有点枯燥,对吧?最好的学习方式永远是亲自动手。所以,今天我们不聊空泛的概念,而是跟着Anthropic应用AI团队的专家Hannah和Christian,通过一个真实的客户案例,一步步搭建一个高质量的Prompt。 初始挑战:一张瑞典语的事故报告单 想象一下,你是一家瑞典保险公司的理赔员。每天,你都要处理大量的汽车保险索赔。今天,你手上有两份材料: 一份手填的事故报告表:上面用瑞典语写着事故发生的各种情况,勾选了一些选项。 一张手绘的事故草图:潦草地画着两辆车是怎么撞上的。 我们的目标是让Claude分析这两份图像材料,搞清楚事故经过,并判断谁是责任方。听起来是个不错的自动化方案,对吧? Round 1: 最天真的尝试——直接把图片丢给AI 大多数人刚开始可能都会这么做:把两张图片上传,然后给一个超级简单的指令,比如: “请审查这份事故报告和草图,告诉我发生了什么,以及谁的责任。” (示意图:简单的指令界面) 结果呢?Claude的回答让人大跌眼镜。它认为这是一起发生在瑞典一条著名商业街上的滑雪事故。 等等,滑雪? 这当然是个无辜的错误。在我们极其简单的指令里,没有给AI任何场景信息。它看到了模糊的手绘线条和表格,做出了一个不那么离谱的猜测。这个结果虽然不对,但它告诉我们一个关键道理:你不能指望AI读懂你的心思,你得把舞台先为它搭好。 Prompt工程的核心:迭代与优化 这次失败恰恰是Prompt工程的起点。它就像一门实验科学,你需要不断尝试、观察结果、然后迭代优化你的指令。我们的第一个优化目标很明确:得让Claude知道,我们处理的是车辆事故,不是什么滑雪运动。 为了做到这一点,我们需要一个更专业的Prompt结构。Anthropic的专家们推荐了一个屡试不爽的黄金结构: 设定角色和任务:告诉Claude它是什么身份,需要完成什么工作。 提供上下文/文档:给出完成任务所需的背景信息或固定文档。 动态内容:这是每次请求都会变化的部分,比如我们这次的事故报告图片。 详细步骤/指令:像写SOP一样,告诉它一步步该怎么做。 提供范例 (Few-shot):如果可能,给一两个已完成的“标准答案”作为参考。 最后提醒和输出格式要求:在最后,再次强调关键规则,并指定你想要的输出格式。 听起来有点复杂?别急,我们一步步来拆解。 Round 2: 设定角色与基调——“你是专业的理赔助理” 在第一次失败的基础上,我们来丰富一下指令,加入“角色设定”和“基调要求”。 你是一名AI理赔助理,正在帮助人类理赔员审查瑞典的汽车事故报告。你的任务是分析提供的事故报告表(手填表格)和事故草图(手绘图)。 你的分析必须基于事实,保持自信。如果你对信息不确定,或无法看清内容,请直接说明,不要猜测。你的目标是判断事故责任方。 这次,我们明确了几个关键点: 角色:AI理赔助理。 领域:瑞典汽车事故。 输入:手填表格和手绘图。 基调:实事求是,不确定就别瞎说。 再次运行后,结果好多了!Claude准确地识别出这是一起汽车事故,还看出了A车和B车分别勾选了表格中的第1项和第12项。 但是,它最后补充道:“由于信息不足,我无法自信地判断谁是责任方。” 这是一个巨大的进步!它没有再犯“滑雪事故”那样的错误,并且严格遵守了我们“不确定就不猜测”的指令。现在的问题是,如何给它足够的信息,让它变得“确定”? Round 3: 提供背景知识——把“说明书”喂给AI 那份瑞典事故报告表,虽然每次填写的内容不同,但表格本身的格式和每个选项的含义是固定的。这部分信息就是完美的“背景知识”,可以预先提供给Claude。 我们决定把这份“说明书”放进**系统提示(System Prompt)**里。这样,AI在处理任何请求前,就已经把这份知识内化于心了。我们还使用了XML标签(比如``)来组织信息,这能让AI更好地理解不同信息块的作用。 系统提示词(System Prompt)里大概是这样写的: 点击查看系统提示词精简示例 我们在用户指令(User Prompt)中保持不变,但现在Claude有了这份“说明书”撑腰。它不再需要每次都费力地去现场解读表格上每个瑞典单词的意思,而是可以直接调用这些预置知识。 再次运行,奇迹发生了! Claude不仅准确识别了勾选的选项,还结合“说明书”理解了它们的含义。最重要的是,它自信地给出了结论:“根据表格和草图,车辆B明显是责任方。” 这和人类理赔员的判断完全一致。 (示意图:成功分析并判断责任方的结果) 迈向完美:精细化指令与格式化输出 我们已经得到了正确的答案,但这还不够。在真实的业务流程中,我们可能需要AI遵循特定的思考路径,并以固定的格式输出结果,方便后续的程序调用。...

August 1, 2025 · 1 min · fisherdaddy

一份在生产环境中进行“Vibe Coding”的生存指南 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Vibe coding in prod,以下为原视频精华。 嘿,大家好。今天我们来聊一个大家都爱的话题——Vibe Coding。而且,我们还要聊一个可能有点争议的子话题:如何在生产环境(Prod)中负责任地进行Vibe Coding。 我叫Eric,是Anthropic的一名研究员,专注于编码智能体(Coding Agents)。去年,我骑车上班时摔断了手,打了两个月的石膏。你猜怎么着?那两个月里,我所有的代码都是Claude帮我写的。所以,如何高效地让AI为我工作,对我来说不仅仅是个研究课题,更是一次亲身实践。 到底什么是“Vibe Coding”? 很多人觉得,只要大量使用AI生成代码,比如用Cursor或者Copilot,就是在Vibe Coding。但我认为这不完全对。当你的工作流仍然是和模型进行紧密的、快速的来回反馈时,那还不是真正的Vibe Coding。 要理解它的精髓,我们得回到Andrej Karpathy的经典定义: Vibe Coding,就是你完全沉浸于“感觉”(the vibes),拥抱指数级增长,并且忘记代码本身的存在。 关键就在于**“忘记代码本身的存在”**。 这不仅仅是工程师的自娱自乐。Vibe Coding真正让人兴奋的地方,在于它让那些圈外人——那些不懂编程的人——也开始对代码生成感到激动。他们突然发现,自己竟然可以独立构建一个完整的App。这无疑是一次巨大的解放。 当然,随之而来的就是各种“翻车现场”:API密钥被刷爆、订阅系统被绕过、数据库里出现一堆奇奇怪怪的东西。成功的Vibe Coding案例,似乎都发生那些低风险的场景里,比如做个小游戏或者有趣的个人项目,就算出Bug也无伤大雅。 既然这么“危险”,我们为什么还要关心它? 答案是:指数级增长(The Exponential)。 AI能独立完成的任务时长,大约每7个月就会翻一番。现在,AI大概能独立处理一个小时的工作量。这还行,你可以用Cursor帮你写,或者让Claude帮你实现一个需要一小时开发的功能,然后你花点时间审查所有代码,你依然深度参与其中。 但是,明年呢?后年呢? 当AI强大到可以一次性为你生成一整天甚至一整周的工作量时,我们根本不可能再亦步亦趋地去审查每一行代码。如果我们想抓住这个指数级的机遇,就必须找到一种方法,负责任地“放手”,让AI去驰骋。 这让我想起了早期的编译器。我敢肯定,那时候很多开发者也不信任编译器。他们可能会用,但还是会去读编译后的汇编代码,确保它跟自己手写的一样高效。但这种做法根本无法规模化。当系统变得足够庞大复杂时,你必须选择相信这个工具。 所以,未来几年整个软件行业面临的挑战就是:我们如何安全地在生产环境中进行Vibe Coding? 我的答案是:我们可以忘记代码的存在,但绝不能忘记产品的存在。 新的思维模式:你不是码农,你是AI的产品经理 这其实不是一个新问题。想想看: 一个CTO如何管理一个自己完全不懂的专业领域的顶尖专家? 一个产品经理(PM)在自己看不懂代码的情况下,如何验收一个工程特性? 一个CEO在不精通财会的情况下,如何核查会计师的工作? 这些问题已经存在了几百年,而我们也早已有了解决方案。 CTO 可以为专家的工作编写验收测试(acceptance tests),即使不懂具体实现,也能验证功能是否达标。 PM 可以亲自使用产品,确保它的行为符合预期。 CEO 可以抽查自己能看懂的关键数据和报表切片,从而建立对整体财务模型的信心。 看出来了吗?管理一个你并不完全理解其实现的“黑箱”,是人类社会自古以来就在解决的问题。几乎所有管理者每天都在做这件事。只是我们软件工程师习惯了作为纯粹的个人贡献者,习惯了掌控从上到下的每一个技术细节。 为了变得更高效,我们必须学会放手,就像管理者为了高效必须放弃对细节的微操一样。我们需要找到一个可以验证的抽象层,而无需深入了解其底层的具体实现。 唯一的例外:技术债(Tech Debt) 不过,这里有个棘手的问题:技术债。目前,我们还没有一种好方法,可以在不阅读代码的情况下,有效地衡量或验证技术债。这是个硬伤。但这不意味着我们就束手无策了,我们只需要更聪明、更有针对性地选择Vibe Coding的应用场景。 实战框架:如何在代码库中安全“放飞”AI 我的建议是:专注于代码库的“叶子节点”(Leaf Nodes)。 (想象一个树状的代码结构) 叶子节点(图中的橙色点):这些是代码库中不被任何其他部分依赖的模块。它们通常是最终的功能、一些额外的“小玩意儿”。在这些地方,就算存在一些技术债,影响也是可控的,因为它们不太可能被修改,也不会有其他功能建立在它们之上。 主干和分支(图中的白色点):这些是系统的核心架构。我们作为工程师,仍然需要深度理解和保护这些部分,确保它们的可扩展性、可理解性和灵活性。 当然,模型在不断进步。随着时间的推移,我们可能会越来越信任AI去编写那些更核心、更具扩展性的代码。 如何成为一名出色的AI产品经理? 记住这句话:别总问Claude能为你做什么,要问问你能为Claude做什么。...

August 1, 2025 · 1 min · fisherdaddy

如何与 AI Agent 对话:来自 Anthropic 专家的终极 Prompt 指南

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Prompting for Agents,以下为原视频精华。 你可能已经习惯了和AI聊天,让它帮你写邮件、总结文章。但你有没有想过,如何指挥一个AI去独立完成一项复杂任务?比如,只给它一份设计文档,就让它自己写代码、测试、然后提交一个PR(Pull Request)? 这就是AI智能体(AI Agent)的魔力。它不再是被动的一问一答,而是一个能自主规划、使用工具、并循环往复直到达成目标的“行动派”。 来自Anthropic应用AI团队的专家Hannah和Jeremy,通过一场深入的分享,揭示了如何为这些强大的智能体编写指令(Prompting)。这和我们平时在聊天框里输入问题可大不一样,它更像是在用自然语言进行“编程”。 什么是AI智能体,我什么时候该用它? 在我们深入探讨Prompt技巧之前,得先搞清楚一个基本问题:到底什么是智能体? Anthropic给出的定义非常简洁:智能体就是“在循环中持续使用工具的模型”。 想象一下,你给它一个任务,它会: 思考:分析任务,规划步骤。 行动:调用它能使用的工具(比如搜索、读写文件、访问API)。 观察:分析工具返回的结果。 循环:根据新的信息,更新决策,继续思考、行动、观察,直到任务完成。 听起来很酷,但千万别滥用。智能体是为“复杂且有价值”的任务而生的,把它用在所有地方只会事倍功半。那么,什么时候才是智能体大显身手的最佳时机呢? 你可以用下面这四个问题来判断: 任务足够复杂吗? 如果你能清晰地列出完成任务的每一步,那你可能只需要一个自动化的工作流,而不是智能体。智能体的用武之地在于那些“你知道目的地,却不清楚具体路线”的场景。比如数据分析,你知道你想要获得某些洞察,但数据本身可能有错误、格式不一,需要智能体在探索中动态调整分析策略。 任务价值够高吗? 智能体的运行会消耗更多资源。如果任务本身价值不高,用智能体就有点“杀鸡用牛刀”了。相反,如果一个任务能为你创造显著价值(比如直接产生收入,或将工程师从繁琐的编码中解放出来),那智能体就是你的不二之选。 任务的子步骤可行吗? 智能体需要工具来与世界互动。如果你无法为智能体提供完成任务所需的工具(比如访问特定数据库的API、读写文件的权限),那它也无能为力。在设计任务时,要确保你能为它提供必要的“武器”。 犯错的成本高吗? 如果一个错误很难被发现,或者一旦出错就造成无法挽回的损失,那么让智能体完全自主工作可能不是个好主意,或许需要加入“人类审核”环节。但如果错误是可恢复的(比如网页搜索结果不佳,再搜一次就行),或者成本很低,那就可以放心地让智能体独立工作。 简单来说,编码、复杂研究、数据分析、需要和电脑桌面交互的任务,都是智能体的绝佳应用场景。 智能体Prompting的核心秘诀 好了,现在我们知道什么时候该用智能体了。接下来,Jeremy分享了他们在构建claude-code(一个在终端里写代码的智能体)和claude.ai高级研究功能时总结出的宝贵经验。这些技巧,才是让智能体从“能用”到“好用”的关键。 1. 像智能体一样思考 这是最重要的原则。你必须设身处地地站在智能体的角度,去理解它的“世界”——也就是它拥有的工具和它能从工具那里得到的回应。如果换作是你,面对同样的工具和信息,你会不会感到困惑?如果一个任务的说明连人都看不懂,AI更不可能明白。 2. 给予合理的“启发式原则” (Heuristics) Prompt工程远不止于文字游戏,它是一种“概念工程”。你需要为智能体灌输一些核心的行为准则。 举个例子:“不可逆性” 在claude-code中,他们教会了模型一个概念叫“不可逆性”,即不要执行任何可能对用户环境造成永久性损害的操作。这个概念需要被清晰地定义,否则一个“过于热情”的智能体可能会误解你的意图,做出超出预期的行为。 另一个例子:设置“预算” 在研究任务中,他们发现模型有时会没完没了地进行网页搜索,即便已经找到了答案。后来,他们在Prompt里加入了一条原则:“当你找到答案后,就可以停止搜索了”,并且给它设定了工具调用次数的“预算”——简单问题用少于5次工具调用,复杂问题可以用10到15次。 把智能体想象成一个刚毕业的实习生,你需要非常清晰地告诉他工作的原则和边界,而不是期望他什么都懂。 3. 工具选择是关键 最新的模型(如 Claude 3.5 Sonnet 和 Opus)可以同时处理上百个工具,但它并不知道在你的特定场景下,哪个工具是首选。你需要在Prompt里明确地指导它。 “在A公司,如果你要找内部信息,应该优先搜索Slack,而不是Google Drive。” 这样的具体指导,远比给一堆工具让模型自己猜要有效得多。另外,尽量避免给模型一堆名字和描述都非常相似的工具,这会把它搞糊涂。最好是将相似的工具合并成一个。 4. 引导它的“思考过程” 不要只是打开模型的“思考”开关(thinking block/chain-of-thought)就完事了。你可以更进一步,引导它如何思考。 规划在前:在执行任务前,让智能体在第一个“思考块”里就规划好整个流程:“这个任务有多复杂?我大概需要调用几次工具?我该去哪里找信息?我怎么判断任务成功了?” 事后反思:模型从工具(比如网页搜索)拿到信息后,默认会认为这些信息都是真的。你可以引导它进行“交错式思考”(interleaved thinking),在两次工具调用之间停下来反思一下:“这个搜索结果可靠吗?我需要交叉验证一下吗?或者我应该在最终报告里加个免责声明?” 5. 预料之外的“副作用” 智能体是自主循环的,所以你对Prompt的任何一个微小改动,都可能带来意想不到的连锁反应。比如,你告诉它“一定要找到最高质量的信源”,结果这个“完美信源”根本不存在,智能体就可能会陷入无限搜索的循环,直到耗尽上下文窗口。因此,你还需要告诉它:“如果几次尝试后找不到完美信源,那也没关系,可以停下来。”...

August 1, 2025 · 1 min · fisherdaddy

Claude Code 最佳实践指南 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Claude Code best practices,以下为原视频精华。 大家好,我是 Cal,在 Anthropic 的应用 AI 团队工作。我的日常就是和 Claude 打交道,想方设法地挖掘出这些模型最惊艳的潜力。不过,除了做提示词工程,我也是个不折不扣的编程爱好者。 你懂的,就是那种脑子里总有疯狂点子,喜欢启动一堆新项目,但最后能完成的寥寥无几的人。我的电脑里简直就是个“代码项目坟场”。 直到去年年底,我在公司内部听说了一个很酷的新工具。一个周五晚上,我下载了这个后来被命名为 “Claude Code” 的工具,并把它用在了我想开发的一个新笔记应用上。那个周末,彻彻底底地改变了我对编程和软件工程的看法。 我整个周末都抱着笔记本电脑,简直像上瘾了一样,看着 Claude 不断编写代码。我按下回车,切换到浏览器刷新,一个强大复杂的应用就在我眼前慢慢成形。我一个人绝对不可能在这么短的时间内做到这个地步,这感觉太震撼了。 当时我还有点小担心:“天啊,我这得用了多少 token,不会被老板发现我没在干正经活吧?” 但我不知道的是,Claude Code 团队内部有个排行榜,记录着所有员工的使用情况。一个周末下来,我直接冲到了榜首。 就这样,我认识了 Boris 和 Cat 这些 Claude Code 的早期团队成员。凭借着我对提示词的了解和对这个工具的热爱,我加入了他们,成为了核心贡献者之一。 今天,我想跟大家聊聊 Claude Code,分享一些我们内部总结的最佳实践。 把你的编程搭档,想象成一位终端命令行高手 如果有人问我 Claude Code 是什么,我的脑海里会浮现出一个画面:它就像你团队里那个精通命令行的同事。 他从不碰图形界面,手指在键盘上翻飞,用各种复杂的 Bash 命令和 Vim 快捷键解决问题。我刚当工程师的时候,就有个叫 Tony 的导师。每次我遇到 bug 去找他,他总是在终端里一顿操作,看得我眼花缭乱,然后问题就解决了。我总是想:“太牛了,我啥时候也学学这个。”——当然,我从来没学会。 但现在,拥有 Claude Code,就好像随时随地都有一个 Tony 坐在你旁边。 揭秘:Claude Code 是如何工作的? 在 Anthropic,我们信奉一个原则:“做那个能奏效的简单方案”。对于 Claude Code 来说,这意味着它是一个非常“纯粹”的智能体(Agent)。...

August 1, 2025 · 2 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-30B-A3B-Instruct

Qwen 团队在 2025 年 7 月 31 号开源 30B 的编码模型 Qwen3-Coder-30B-A3B-Instruct。该模型经过精简,旨在保持卓越性能的同时提高效率,特别是在 Agentic 编程和长上下文处理方面表现突出。 Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码语言模型。其核心优势在于卓越的 Agentic 编程能力、对超长上下文的原生支持以及在各类代码任务中的顶尖性能。该模型专为处理代码库级别的复杂任务而设计,并通过特殊的函数调用格式,为开发者提供了强大的工具集成能力。 模型亮点 卓越性能: 在 Agentic Coding (智能体编程)、Agentic Browser-Use (智能体浏览器使用) 及其他基础编码任务中,该模型在开源模型中表现出众。 长上下文能力: 原生支持 256K tokens 的上下文长度,并可通过 Yarn 技术扩展至 1M tokens,能够轻松理解和处理整个代码库。 Agentic 编程支持: 支持 Qwen Code、CLINE 等多种平台,并设计了专门的函数调用 (function call) 格式,便于工具集成和自动化任务。 模型规格 模型类型: 因果语言模型 (Causal Language Models)。 参数量: 总参数量为 30.5B,激活参数量为 3.3B。 架构: 包含 48 个层,采用分组查询注意力 (GQA) 机制,其中查询 (Q) 有 32 个注意力头,键/值 (KV) 有 4 个。模型采用专家混合 (MoE) 架构,共有 128 位专家,每次激活 8 位。 上下文长度: 原生支持 256K 上下文。 特别说明: 此模型仅支持非思考模式,不会在输出中生成 <think></think> 标记。 使用与部署 环境要求: 强烈建议使用 transformers 库的最新版本(低于 4....

August 1, 2025 · 1 min · fisherdaddy

Anthropic CEO Dario Amodei 深度访谈:AI 的潜力、与 OpenAI 的竞争、生成式 AI 业务、末日论

本文整理自 Alex Kantrowitz 对 Anthropic CEO Dario Amodei的 深度访谈,以下为原视频精华。 别叫我“AI末日论者”——Anthropic CEO Dario Amodei的自白与野心 “当有人叫我‘末日论者’,说我想让AI发展减速时,我真的会非常愤怒。” Anthropic 的CEO Dario Amodei 在采访一开始就毫不掩饰自己的情绪。对他来说,这个标签不仅是一种误解,更是一种侮辱。因为很少有人比他更清楚,技术进步的迟缓意味着什么。 “你听听我刚才说的,我父亲的去世,就是因为那些晚了几年才出现的疗法。我比谁都懂这项技术能带来的好处。” 这份深植于个人经历的紧迫感,塑造了Dario Amodei——这位处在AI浪潮之巅,却又时常发出警示声音的复杂人物。他既是AI能力指数级增长最坚定的信徒,也是那个不断提醒世界“小心脚下”的吹哨人。 在这场坦诚的对话中,Dario分享了他对AI未来的判断、Anthropic的生存法则,以及他为何选择了一条与众不同的道路。 指数级增长:我们都被蒙在鼓里 Dario的核心观点可以归结为一个词:指数级增长(the exponential)。 他认为,人们在直觉上很难理解指数曲线的可怕。就像上世纪90年代的互联网,在它彻底爆发的前两年,看起来似乎才刚刚起步,只有1/16的威力。而今天的AI,正处在同样的历史节点。 “我们正坐在2025年的中间点,模型的能力正在爆炸式增长,” Dario说,“几年前它们还语无伦次,后来达到高中生水平,现在已经是聪明的大学生甚至博士生了。” 他不喜欢用“AGI”或“超级智能”这类模糊的营销术语,他觉得那些词只会刺激人们的多巴胺。他更愿意谈论可观察到的、实实在在的进步——只要投入更多的算力、数据和新的训练方法,AI模型每隔几个月就会变得比上一代更强。 这种进步也直接体现在商业上。Anthropic的收入增长曲线堪称疯狂: 2023年:从0增长到1亿美元 2024年:从1亿美元增长到10亿美元 2025年上半年:从10亿美元增长到超过45亿美元 “我不是说这个趋势一定会持续,但如果你假设它再持续两年呢?你会进入千亿级别。” Dario解释道,“人们正在被指数增长蒙蔽了双眼,没有意识到事情会发展得有多快。” 正是这种对未来的预判,让他感到前所未有的紧迫感。他觉得,当问题(无论是国家安全还是经济冲击)离我们越来越近时,他有责任和义务把丑话说在前面,警告世界可能出现的风险。 技术瓶颈?只是暂时的障碍 尽管行业内充满了对“规模化边际效益递减”和“模型无法持续学习”的担忧,但Dario对此不以为然。 1. 关于边际效益递减 “从我们在Anthropic内部看到的情况来说,我们没有看到任何收益递减。” 他以编码领域为例。Anthropic的Claude系列模型在编码能力上进步神速,相关的基准测试(如SweetBench)得分从18个月前的3%飙升到了现在的70%-80%。在Anthropic内部,大部分代码的编写都已经离不开Claude的参与。他认为,所谓的瓶颈,更像是某些人的一厢情愿。 2. 关于持续学习 有人批评大语言模型像个一次性产品,训练完就定型了,无法像人一样持续学习。Dario承认这是个问题,但远非致命弱点。 “就算我们永远解决不了持续学习,一个拥有诺奖级别智慧但无法学习新知识的AI,如果你有一千万个,它们照样能在生物学上取得巨大突破。” 更何况,他认为这根本不是一个无法解决的问题。首先,不断增长的“上下文窗口”本身就是一种短期学习。理论上,我们可以把上下文窗口扩展到一亿个词,相当于一个人一生的信息输入量。其次,他相信通过新的技术架构(比如他提到的“内循环”和“外循环”),持续学习的问题最终也会像之前的“推理”难题一样,被“规模化+新思路”所攻克。 “在AI领域,每当我们觉得遇到了什么根本性障碍,结果往往它都不是。” Anthropic的生存之道:小而美,但火力十足 作为一家独立创业公司,Anthropic如何在Meta、xAI这些由万亿巨头支持的庞然大物之间生存?Dario的答案是 人才密度 和 资本效率。 “三年前,我们的融资额只有几亿美元,而OpenAI已经从微软拿了130亿。我们当时的逻辑是:如果别人花10亿能做到的事,我们花1亿就能做到,那么投资我们比投资他们资本效率高10倍。” 他认为,金钱只是一个暂时的短板,可以弥补;而用更少资源做出更好产品的内在能力,才是真正的护城河。如今,Anthropic手握近200亿美元融资,在数据中心的规模上,他自信不输给任何对手。 面对Mark Zuckerberg用高薪直接挖人的策略,Dario显得很冷静。他没有选择跟进,破坏公司内部公平的薪酬体系。他认为,这种做法破坏了企业文化,而且“你只能买走那些可以被买走的人”。 “他们在尝试购买一些买不到的东西,那就是对使命的认同感。” Dario说,Meta的挖角反而成了Anthropic的“团结时刻”,因为大部分员工都拒绝了天价offer,选择留下来。 个人经历:一切紧迫感的源头 要理解Dario Amodei,就必须回到他的个人经历。 在旧金山长大的他,对早期的互联网热潮毫无兴趣,一心想成为一名物理学家,去探索宇宙的基本真理。然而,父亲的离世彻底改变了他的人生轨迹。 “我父亲病了很久,在他去世后仅仅三四年,治愈他那种疾病的成功率就从50%飙升到了95%。” 这件事对他冲击巨大。一方面,他感受到了科技进步能拯救生命,另一方面,他也体会到了“如果能再快一点”的切肤之痛。这让他从理论物理转向了生物学,希望能亲自解决这些难题。 但在生物学领域,他再次感到了人类能力的局限。“生物系统的复杂性超越了人类的尺度,”他发现,只有AI这项技术,才有可能帮助人类跨越这个鸿沟。 于是,他最终投身AI。这条从“物理学”到“生物学”再到“人工智能”的道路,贯穿着一个核心母题——产生真正的影响力(Impact)。他想解决真正重要的问题,想阻止其他人经历他所经历的痛苦。 这种强烈的使命感也解释了他为何离开OpenAI。“当你为一个动机不真诚、不是真心想让世界变得更好的人工作时,你做的技术再好,最终也只是在为一个坏结果做贡献。” 在“末日论”与“加速主义”之间走钢丝 采访中最激烈的时刻,莫过于回应英伟达CEO黄仁勋的批评——“Dario认为只有他能安全地构建AI,因此想控制整个行业”。...

August 1, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-30B-A3B-Thinking-2507

Qwen 团队在 2025 年7 月 30 号开源了的最新语言模型 Qwen3-30B-A3B-Thinking-2507。该模型在 Qwen3-30B-A3B 的基础上,进一步提升了深度推理和思考能力,专为处理高度复杂的任务而设计。 Qwen3-30B-A3B-Thinking-2507 是一款经过深度优化的语言模型,其核心优势在于卓越的推理能力。该模型在过去三个月中持续迭代,显著增强了在逻辑、数学、科学、编码等需要专业知识的领域的表现。同时,它在指令遵循、工具使用、文本生成等通用能力以及对 256K 长上下文的理解能力方面也得到了显著提升。因此,官方强烈推荐在处理高复杂度推理任务时使用此版本。 模型规格与特性 模型类型: 因果语言模型 (Causal Language Model),采用 MoE (Mixture-of-Experts) 架构。 参数规模: 总参数量为 30.5B,激活参数量为 3.3B。 架构信息: 模型包含 48 个层,128 个专家,每次前向传播激活 8 个专家。 上下文长度: 原生支持高达 262,144 (256K) tokens 的上下文窗口。 核心模式: 模型仅支持 “thinking mode”,该模式默认启用,会自动在输出中包含思考过程。 性能表现 该模型在一系列行业标准基准测试中展现了强大的性能,尤其在以下方面提升显著: 推理能力: 在 AIME25 (数学推理) 和 HMMT25 (数学竞赛) 等高难度测试中得分大幅领先前代模型及部分竞品。 编码能力: 在 LiveCodeBench 和 OJBench 等编码测试中表现优异。 综合能力: 在知识问答 (MMLU-Pro)、与人类偏好对齐 (Arena-Hard v2)、Agent 应用 (BFCL-v3, TAU 系列) 等多个维度均表现出色。 使用与部署 环境依赖: 建议使用最新版本的 Hugging Face transformers 库 (>=4....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队开源的 Qwen3-30B-A3B-Instruct-2507

Qwen 团队于 2025 年 7 月 30 日开源了 Qwen3-30B-A3B-Instruct-2507,它是 Qwen3-30B-A3B 非思考模式的升级版本,该模型在多个核心能力上进行了显著增强。 Qwen3-30B-A3B-Instruct-2507 是一款经过全面优化的因果语言模型,其核心优势在于: 综合能力显著提升:在指令遵循、逻辑推理、文本理解、数学、科学、代码和工具使用等通用能力上取得了巨大进步。 知识覆盖更广:大幅增强了多语言场景下的长尾知识覆盖范围。 用户对齐更优:在主观和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力增强:提升了在 256K 长上下文理解方面的能力。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持非思考模式。 参数量:总参数量为 30.5B,激活参数量为 3.3B。 模型架构:采用混合专家模型 (MoE) 架构,包含 48 个层、128 个专家(每次激活 8 个)。 上下文长度:原生支持 262,144 (256K) tokens 的上下文长度。 性能表现 该模型在多个行业标准测试基准 (Benchmark) 中展现出强大的竞争力,其表现在多个方面可与 GPT-4o-0327 和 Gemini-2.5-Flash 等顶尖模型媲美或超越。 推理能力:在 AIME25 (数学) 和 ZebraLogic (逻辑) 等测试中得分尤为突出,显著优于其前代模型和其他对比模型。 代码能力:在 MultiPL-E 等多语言代码生成测试中表现优异。 对齐能力:在 Arena-Hard v2、Creative Writing v3 和 WritingBench 等评估模型与人类偏好对齐程度的测试中,得分大幅领先其前代模型,并超过了 GPT-4o。 使用与部署 快速上手:模型已集成到最新的 Hugging Face transformers 库中,用户可以通过标准代码片段进行调用。 服务部署:推荐使用 sglang (>=0....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里最新开源的视频生成模型:Wan2.2

2025 年7 月 28 日,阿里开源了一个先进的大规模视频生成模型 Wan2.2。作为 Wan 系列的重大升级,Wan2.2 在模型架构、数据训练、生成效率和美学质量上均实现了显著突破,旨在为学术界和工业界提供顶尖的视频生成能力。 Wan2.2 是一个功能强大的开源视频生成模型,其核心创新在于引入了高效的 MoE (混合专家) 架构,显著提升了模型容量而未增加计算成本。通过使用更大规模、更精细标注的训练数据,Wan2.2 在生成视频的动作复杂度和电影级美学质感方面达到了业界领先水平。此外,它还推出了一个高效的高清混合模型 TI2V-5B,该模型能在消费级显卡 (如 RTX 4090) 上运行,支持生成 720P 分辨率的视频,并兼顾了文生视频和图生视频功能,极大地降低了高质量视频生成的门槛。 1. 架构与技术创新 MoE (混合专家) 架构: Wan2.2 首次将 MoE 架构引入视频扩散模型。它设计了两个专家模型(高噪声专家和低噪声专家),分别处理去噪过程的不同阶段。这使得模型总参数量达到 27B,但每步推理时仅激活 14B 参数,从而在提升模型能力的同时保持了计算效率。 高效高清混合 TI2V 模型: Wan2.2 开源了一个 5B 参数的紧凑模型 TI2V-5B。该模型采用全新的 Wan2.2-VAE,实现了 4×16×16 的高压缩率,支持在 24GB 显存的消费级显卡上生成 720P、24fps 的高清视频,是目前速度最快的同类模型之一。 统一框架: TI2V-5B 模型在统一的框架内原生支持文生视频 (Text-to-Video) 和图生视频 (Image-to-Video) 两种任务。 2. 性能与质量提升 电影级美学: 模型使用了经过精心策划和详细标注(如光照、构图、色调等)的美学数据进行训练,使得生成的视频具有可控的电影级风格。 复杂动作生成: 与 Wan2.1 相比,Wan2.2 的训练数据量大幅增加(图像 +65.6%,视频 +83.2%),显著增强了模型在动作、语义和美学等多个维度的泛化能力,在 Wan-Bench 2.0 评测中表现优于顶尖的闭源商业模型。 提示词扩展: 支持使用 Dashscope API 或本地模型 (如 Qwen) 对用户输入的提示词进行扩展,以生成更丰富、更高质量的视频内容。 3....

July 29, 2025 · 1 min · fisherdaddy

Anthropic 团队揭秘:Claude Code 如何革新工作流程,赋能开发与业务团队

本文介绍了 Anthropic 内部团队如何使用其自家的智能编程助手 Claude Code。报告指出,这类代理式编程工具不仅提升了传统开发工作的效率,更重要的是,它正在打破技术与非技术工作之间的界限,让任何能够描述问题的人都有能力构建解决方案。 主要内容 加速传统开发流程:Claude Code 能显著加快开发人员在代码导航、测试、调试和代码审查等环节的工作速度,自动化处理繁琐和重复性的任务。 赋能非技术人员:该工具使非技术背景的员工(如法务、市场营销人员)也能够构建定制化的工具和自动化流程,从而将想法快速转化为解决方案,无需深厚的编程知识。 重塑人机协作模式:最成功的应用案例是将 Claude Code 视为一个“思考伙伴”而非简单的代码生成器。通过人机协作,团队能够探索新的可能性、快速验证想法,从而增强整体工作流程和创新能力。 关键细节 代码导航与理解 新员工上手:基础设施团队的数据科学家通过向 Claude Code 提供整个代码库,能够快速理解数据管道依赖关系,其作用甚至取代了传统的数据目录工具。 快速定位:产品工程团队将 Claude Code 作为编程任务的“第一站”,用它来识别修复 bug 或开发新功能所需检查的文件,节省了手动查找上下文的时间。 测试与代码审查 自动化测试:产品设计团队使用 Claude Code 为新功能编写全面的单元测试,并通过 GitHub Actions 自动处理拉取请求 (Pull Request) 中的格式问题和测试用例重构。 跨语言测试:当推理团队需要在不熟悉的语言(如 Rust)中测试功能时,他们只需描述测试需求,Claude Code 就能生成相应的本地代码。 调试与故障排除 提升效率:安全工程团队在处理生产事故时,通过向 Claude Code 提供堆栈跟踪和文档,将问题诊断速度提升了 3 倍。 解决复杂问题:在一次 Kubernetes 集群故障中,数据基础设施团队通过向 Claude Code 提供仪表盘截图,成功定位了 pod IP 地址耗尽的问题,并获得了修复指令,在系统中断期间节省了 20 分钟的宝贵时间。 原型设计与功能开发 快速原型:产品设计团队将 Figma 设计文件交给 Claude Code,让其自主编写代码、运行测试并进行迭代,从而快速构建功能原型。 赋能数据科学家:不熟悉 TypeScript 的数据科学家利用 Claude Code,成功构建了用于可视化模型性能的完整 React 应用程序。 自动化与工作流程优化 营销自动化:增长营销团队构建了一个代理工作流,能在几分钟内处理包含数百个广告的 CSV 文件,并生成新的广告文案变体。 跨部门创新:法务团队利用 Claude Code 创建了一个“电话树”系统原型,用于帮助内部员工快速找到合适的律师,展示了非技术部门构建定制工具的能力。 原文 Anthropic的内部团队正在通过Claude Code转变其工作流程,使开发人员和非技术人员能够处理复杂项目、自动化任务,并弥合先前限制其生产力的技能差距。...

July 29, 2025 · 3 min · fisherdaddy