介绍一下 GPT-5 在编码上的能力

OpenAI 于 2025年 8 月 8 日发布最新、最强大的、转为开发者设计的 AI 模型——GPT-5。该模型在编码和智能体任务方面树立了新的行业标杆,提供了前所未有的性能、可控性和协作能力。 主要内容 发布新一代模型 GPT-5:GPT-5 是一个专为编码和智能体任务优化的顶尖模型,现已通过 API 平台发布。 卓越的编码与智能体能力:该模型在各项关键基准测试中表现出色,能够高效处理复杂的编码任务,如修复 bug、代码编辑和问答。同时,它在执行需要连续调用多个工具的长期智能体任务方面也达到了业界领先水平。 增强的开发者控制:API 引入了多项新功能,包括用于控制响应速度与质量的 reasoning_effort 参数、调节内容详略的 verbosity 参数,以及支持更灵活工具调用的 custom tools。 多样的模型选择:为满足不同场景下对性能、成本和延迟的需求,GPT-5 提供了三种不同规模的版本:gpt-5、gpt-5-mini 和 gpt-5-nano。 更高的可靠性与安全性:GPT-5 在事实准确性上相比前代模型有显著提升,事实性错误减少了约 80%,使其在处理关键任务时更加值得信赖。 关键细节 性能表现 编码能力: 在 SWE-bench Verified 基准测试中得分 74.9%,超越了 o3 的 69.1%。 在 Aider polyglot 代码编辑测试中得分 88%,错误率比 o3 降低了三分之一。 在前端开发测试中,70% 的情况下优于 o3。 智能体任务: 在 τ2-bench telecom 工具调用基准测试中得分高达 96.7%,远超其他模型。 能够可靠地连续或并行调用数十个工具来完成复杂任务。 长上下文处理: 在 OpenAI-MRCR 测试中全面超越前代模型,尤其在长输入下优势明显。 所有 GPT-5 模型支持最高 272,000 输入 token 和 128,000 输出 token,总上下文长度达 400,000 token。 事实准确性: 在 LongFact 和 FactScore 基准测试中,事实性错误比 o3 减少了约 80%。 新增 API 功能 reasoning_effort 参数:新增 minimal 选项,可在牺牲部分推理深度的情况下实现更快的响应。 verbosity 参数:提供 low、medium、high 三个级别,用于控制模型回答的详细程度。 custom tools (自定义工具):允许模型使用纯文本(plaintext)而非 JSON 格式调用工具,并可通过正则表达式或上下文无关文法进行约束,简化了复杂输入的处理。 模型版本与可用性 API 模型: gpt-5:$1....

August 8, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI 发布的 GPT-5

OpenAI 于 2025年 8 月 8 日发布最新、最强大的 AI 模型——GPT-5。该模型在智能水平上实现了巨大飞跃,旨在提供更准确、更可靠、更实用的辅助,并面向所有用户推出。 主要内容 革命性的智能飞跃:GPT-5 是一个在性能上远超以往所有模型的 AI 系统,在编码、数学、写作、健康和视觉感知等多个领域树立了新的标杆。 创新的统一系统架构:GPT-5 内部集成了一个能快速响应大多数问题的标准模型和一个用于解决复杂难题的深度推理模型(GPT-5 thinking)。系统通过一个智能路由器自动判断并选择最合适的模型,实现了效率与深度的统一。 实用性和可靠性显著提升:新模型在减少“幻觉”(提供不实信息)、遵循指令和减少“谄媚”(过度附和)方面取得了重大进展,使其在写作、编码和健康咨询等核心应用场景中变得更加有用和可靠。 分层级的用户体验:所有用户均可使用 GPT-5。Plus 和 Pro 等付费用户将获得更高的使用额度和更强的版本,其中 GPT-5 pro 专为处理最复杂的任务而设计,具备更强的推理能力。 安全与交互的全新范式:GPT-5 引入了名为“安全完成”(safe completions)的全新安全训练方法,使其在保证安全的前提下尽可能提供有帮助的回答,而非简单地拒绝。同时,模型交互体验更自然,更像与一位博学的伙伴对话。 关键细节 系统架构与运行机制 智能路由:GPT-5 的核心是一个实时路由器,它能根据对话类型、复杂度和用户意图(如用户输入“think hard about this”)来决定是快速回答还是启用深度推理模式。 GPT-5 pro:这是一个专为高难度任务设计的增强版,通过更长时间的并行计算,提供最全面、最准确的答案。在专家评测中,GPT-5 pro 在 67.8% 的情况下优于标准的 GPT-5 thinking 模式。 性能与基准测试 全面领先:GPT-5 在多项学术基准测试中创造了新的纪录,例如在 AIME 2025 数学竞赛中得分 94.6%,在 SWE-bench Verified 真实世界编码测试中得分 74.9%,在 MMMU 多模态理解测试中得分 84.2%。 更高效率:GPT-5 (with thinking) 在实现更优性能的同时,所需的计算资源(输出 tokens)比 OpenAI o3 少 50-80%。 核心应用领域提升 编码:能够仅通过单个提示生成美观且响应迅速的网站、应用和游戏,对设计美学(如间距、排版)有更好的理解。 写作:能更好地处理具有结构模糊性的写作任务,如创作无韵诗或自由诗,使文本兼具形式感与表达清晰度。 健康:在 HealthBench 健康场景评测中得分显著提高,表现得更像一个“积极的思考伙伴”,能主动提出潜在问题,提供更安全、更具地理适应性的建议。 可靠性与安全性的量化改进...

August 8, 2025 · 4 min · fisherdaddy

ChatGPT 会让人变笨还是成为终极学习工具?来自 OpenAI 和一线学生的真实声音

本文整理自 OpenAI 教育负责人对 ChatGPT 的深度解读,带你 5 分钟了解这篇访谈的精华。 ChatGPT会让人变笨吗?来自OpenAI和一线学生的真实答案 当ChatGPT横空出世,整个教育界都为之一振。无数的讨论瞬间点燃:这玩意儿会让学生变懒、变笨,甚至让“脑子生锈”吗?它是不是就是个终极作弊工具? 为了搞清楚这些问题,我们不妨听听两种最真实的声音:一个是来自行业内部的顶层设计者——OpenAI的教育负责人Leah Bellski;另一个则来自每天都在使用这些工具的一线学生——Yabi和Alaa。他们的分享,或许能帮我们拨开迷雾,看到一个更清晰的未来。 一个宏大的“登月计划”:为每个人打造AI导师 Leah Bellski在教育领域深耕了15年,曾在世界银行和Coursera致力于让教育普惠全球。当她加入OpenAI时,首席运营官Brad Lightcap给了她一个听起来既疯狂又鼓舞人心的任务——去追逐那个“登月计划”。 这个计划的核心梦想是:AI能极大地提升人类潜能,成为伴随每个人一生的有效导师和伙伴。 这不仅仅是一个产品目标,更是一种愿景。Leah的任务就是要去实现它,并确保这个工具一旦建成,全世界的每一个人都能用上。这个愿景也解释了为什么OpenAI如此看重教育。 如今,拥有6亿用户的ChatGPT,已经可以说是世界上最大的学习平台之一。“学习”是其最核心的用途之一。这不仅限于传统课堂,更延伸到了课堂之外的广阔世界。 AI在全球教育领域的真实足迹 AI教育的浪潮正以前所未有的速度席卷全球。 教师们是早期拥抱者:他们不仅用AI来减轻备课、批改作业等行政负担,还积极地将其带入课堂,探索新的教学方法。 国家级的战略布局:像爱沙尼亚这样教育水平顶尖的国家,率先看到了AI的潜力,希望用它来进一步激发学生潜能、赋能教师。紧随其后的国家络绎不绝,他们不仅希望通过AI提升教育质量,更意识到,要建立一个AI驱动的经济体,就必须培养出懂得使用AI的下一代。这已经不是开设几门AI课程那么简单,而是要让AI融入每一门课,成为学生毕业时必须掌握的核心技能。 从“猫鼠游戏”到建立信任 当然,AI进入校园并非一帆风顺。最初,许多学校的第一反应是“防堵”,推出了各种不靠谱的“AI内容检测器”。这种做法不仅伤害了那些被误判为作弊的学生,也让师生关系从一开始就站错了脚。 Leah坦言,我们最初“走错了路”,把重点放在了监管和限制上,而不是去思考如何重新设计我们的评估方式和作业形式。 更深层次的问题在于信任。现在的大学生是“新冠一代”,他们对在线监控式的教育技术有着天然的警惕。如果学校只是提供一个AI工具,却不明确承诺不会监控学生的对话,学生们是不敢放心使用的。 好在,情况正在好转。越来越多的教育者意识到,单纯的禁止是行不通的。他们开始积极探索如何将AI融入教学,设计出更有挑战性、更能激发创造力的项目。 不只是给答案:“学习模式”的诞生 为了解决“AI只会给答案,让人无法深度学习”的担忧,OpenAI推出了一个名为**“学习模式”(Study Mode)**的新功能。 这个功能的灵感来源于一次印度之行。团队发现,在印度,家庭会在课后辅导上投入巨额开销,年轻人有着极强的学习意愿。这促使他们思考:如何让ChatGPT成为一个比现在更好的导师? “学习模式”就是答案。它彻底改变了交互方式: 它不会直接给你答案,而是像苏格拉底一样,通过反问来引导你思考。 它会个性化定制内容,根据你的知识水平调整难度。 它会鼓励你、追问你,比如“你想不想就这个话题来个小测验?”或者“你想不想再深入聊聊?” 简单来说,它把一个“问答机”变成了一个真正的“学习伙伴”。未来,它甚至可能变得更加主动和多模态,比如在你学习有机化学时弹出交互式图表,或者在几周后提醒你:“嘿,还记得你说要攻克期末考试吗?我们再来复习一下吧?” 这个功能的目标,就是让学生不必成为一个“提示词工程师”,也能自然而然地进入深度学习的状态。 一线学生的声音:从史莱克同人小说到学习利器 理论归理论,学生们的真实体验又是怎样的?我们和来自南加州大学(USC)的Yabi与来自伯克利大学的Alaa聊了聊。 第一次“啊哈!”时刻 每个人的AI初体验都充满了故事感。 Alaa的经历很经典。高三时,他和同学们围在电脑前,抱着试一试的心态,让ChatGPT写一篇关于《杀死一只知更鸟》的论文。当一篇完整的文章瞬间生成时,所有人都被震撼了。他说:“我当然没有交那篇作业,但那一刻真的太酷了。” Yabi的经历则更有趣。她第一次使用ChatGPT,是让它写一篇……史莱克(Shrek)的同人小说。当她把这个“杰作”分享给室友时,大家觉得这事儿挺傻的。但对Yabi来说,这个有点无厘头的尝试让她看到了AI的另一种可能性——它不仅能用于学术,更能融入日常生活的方方面面,成为一个激发创意的工具。 课堂正在如何改变? 两位同学都观察到,教授们正在积极适应AI带来的变化。 从“是什么”到“怎么用”:作业和考试题目正在悄悄改变。过去那种“定义某个术语”的问题越来越少,取而代之的是“如何应用这个概念?”“它在更宏大的背景下意味着什么?”等更侧重于思辨和应用的问题。 分轨制的项目挑战:Alaa的计算机科学教授设计了两种项目路径供学生选择。你可以选择不用AI,完成一个传统的项目;或者使用AI,但必须接受一个更难的挑战,并写一篇反思,说明你是如何利用AI的。这种做法既保证了学生对基础知识的掌握,又鼓励他们利用新工具去挑战更高的高度。 成为AI的主人:高级玩家的提示技巧 和很多人想象的不同,这些深度用户并不是简单地复制粘贴。他们已经摸索出了一套让AI更好地为自己服务的“独门秘籍”。 设定角色(Persona):这是最常用的技巧之一。与其泛泛地提问,不如让AI扮演一个特定角色。比如,Yabi在研究阴谋论时,会让ChatGPT扮演不同政治立场的人,来分析同一个(由AI编造的,关于机场镜子的)阴谋论,从而获得更立体、更多元的视角。Alaa则会要求它扮演“顶级公司的顾问”或“极富创造力的教授”,从而获得更专业或更具启发性的回答。 提供明确的约束和背景:Yabi在做研究时,会先把几篇高质量的学术论文喂给ChatGPT,然后要求它“只能基于这些信息进行总结和分析”,从而保证了输出内容的严谨性。 要求批判性反馈:AI的回答往往过于正面和鼓励。为了得到真实的反馈,Alaa会在自定义指令里写上“不要废话,直接点,对我残酷一点”(No fluff, be brutally honest)。这样,AI就会变成一个严厉的批评家,帮助他发现作品中的真实问题。 AI vs. 社交媒体:主动探索与被动接收 一个有趣的趋势是,这两位学生都表示,他们花在ChatGPT上的时间越来越多,而在社交媒体(尤其是TikTok)上的时间则在减少。 他们认为,社交媒体提供的是一种“被动的内容消费”,你只是在无尽地滑动,接收着算法投喂给你的碎片化信息,这会让人变得“自满和懒惰”。 而使用ChatGPT则是一种主动的、有目的性的探索。你可以明确地提出问题,深入挖掘自己感兴趣的领域,这是一种高质量的信息获取方式。Alaa说:“当我想要学习和探索想法时,我会问ChatGPT,而不是去刷社交媒体。” 年轻人的希望与恐惧 对于未来,他们既充满乐观,也有着清醒的思考。 恐惧什么? Yabi担心“真理的中心化”。如果所有人都依赖同一个信息源,而不去主动寻找和整合不同来源的知识,这可能会形成一个巨大的信息茧房和糟糕的反馈循环。 Alaa则担心人们会因为滥用工具而忽视基础。他认为,教育的核心概念和解决问题的思维方式依然至关重要,如果学生们只想着用AI绕过学习过程,当他们真正进入职场时,会发现自己缺乏真正的竞争力。 希望什么? 他们都预见了一个人机协作的混合式教育未来。AI可以承担起教科书、助教甚至部分讲师的角色,提供标准化的、个性化的知识。而人类教师则会转型为导师(Mentor),更专注于培养学生的社交技能、批判性思维、伦理观念,以及如何更好地与AI协作。 正如Yabi所说:“教学的核心在于人与人的连接。谁教你,如何教你,会深刻地影响你的一生。这种人性的部分是AI无法替代的。”...

August 7, 2025 · 1 min · fisherdaddy

Anthropic 的 Jared Kaplan:从物理学到 AI,揭秘通往人类级智能的可预测路径

本文整理自 Anthropic 的联合创始人 Jared Kaplan 在 YC 创业学校的演讲,带你 5 分钟了解这篇访谈的精华。 “AI 的进步并不是因为研究人员突然变聪明了,而是因为我们找到了一个非常简单、系统性的方法来让 AI 变得更好,并且我们正在不断地转动那个曲柄。” 说这话的人是 Jared Kaplan,Anthropic 的联合创始人之一。有趣的是,仅仅在六年前,他的身份还是一位理论物理学家。他的职业生涯始于一个颇具科幻色彩的梦想——受到科幻作家母亲的影响,他想知道人类是否能造出超光速引擎。物理学,似乎是解答这个问题的唯一途径。 从研究大型强子对撞机到宇宙学,再到弦理论,Kaplan 沉浸在探索宇宙最根本规律的乐趣中。但慢慢地,他感到一丝沮丧,觉得物理学的进展不够快。与此同时,他身边许多朋友——包括后来 Anthropic 的同事们——都在谈论一个让他一度非常怀疑的领域:人工智能(AI)。 “AI?人们不是已经研究了50年了吗?” Kaplan 当时的想法代表了很多人的心声。但最终,他被说服了。他将物理学家那种探寻宏大规律、提出最根本问题的思维方式带入了 AI 领域,并幸运地发现了一些足以改变游戏规则的东西。 AI 训练的“秘密配方”其实很简单 在我们惊叹于 Claude 或 ChatGPT 的强大能力时,可能会觉得它们的训练过程高深莫测。但 Kaplan 指出,其核心原理可以归结为两个基本阶段。 第一阶段:预训练 (Pre-training) 这就像让一个学生海量阅读。模型会学习庞大的人类书面文本(现在也包括图片等多模态数据),目标只有一个:预测下一个词。 比如,当你说“在座谈会上,发言人很可能……”时,模型会知道,“说某些话”是高概率的词,而“是一头大象”则是极低概率的。通过这种方式,模型不仅学会了语言,更重要的是,它理解了信息之间的内在关联和世界知识的结构。 一张非常复古的图,展示了早期GPT-3的预测界面 第二阶段:强化学习 (Reinforcement Learning) 预训练后的模型更像一个知识渊博但行为散漫的“书呆子”。它知道很多事,但不知道如何与人有效互动。这时,就需要强化学习来“调教”它。 在这个阶段,人类(比如众包工作者)会与模型进行对话,并对模型的不同回答进行比较和选择,告诉模型哪个回答更好。这个“更好”的标准通常是 Anthropic 奉行的“HHH”原则:有帮助的 (Helpful)、诚实的 (Honest)、无害的 (Harmless)。 通过这种反馈,模型会逐渐学会哪些行为是值得鼓励的,哪些是需要避免的。它从一个单纯的“预测机器”转变为一个有用的对话助手。 另一张复古的图,展示了早在2022年为早期Claude收集反馈的界面 “规模法则”:AI 进步的可预测引擎 Kaplan 从物理学带来的最大洞见,莫过于发现了 AI 发展中的“规模法则”(Scaling Laws)。 作为一个物理学家,他习惯于从宏观视角提出一些“看起来很傻”的问题。当时,“大数据”的概念很流行,他就问:“数据到底要多大才算大?它究竟有多大帮助?” 同样的,大家都说更大的模型表现更好,他就问:“究竟好多少?” 在探寻这些问题的答案时,他和团队幸运地发现了一个惊人的规律:当你扩大 AI 的训练规模(包括计算量、模型参数量、数据集大小)时,模型性能的提升是可预测的,其表现出来的趋势像物理学或天文学中的规律一样精确。 这张图展示了模型性能(Y轴的Loss)随着计算量、数据量和模型大小(X轴)的增加而平滑、可预测地下降 这个发现在当时(大约2019年)给了他们巨大的信心。当一个趋势在好几个数量级上都成立时,你就有理由相信它在未来很长一段时间内会继续成立。 而更妙的是,这种规模法则不仅存在于预训练阶段。研究者 Andy Jones 在研究一个名为“六贯棋”(Hex)的棋类游戏时也发现,AI 的棋力(用 ELO 等级分衡量)同样随着训练量的增加呈现出漂亮的直线增长。...

August 7, 2025 · 1 min · fisherdaddy

Anthropic CEO 达里奥·阿莫迪深度访谈:解密AI背后的指数级商业引擎与“AGI信仰者”文化

本文整理自 John Collison 对 Anthropic CEO Dario Amodei的 深度访谈,带你 5 分钟了解这篇访谈的精华。 当一家公司在一年内将年化收入(ARR)从0做到1亿美元,第二年又从1亿冲向10亿,并在第三年过半时轻松突破40亿美元,你很难不感到好奇。这家公司就是前沿AI实验室Anthropic,而坐在驾驶座上的是其CEO——达里奥·阿莫迪(Dario Amodei)。 从物理学家到计算神经科学家,再到谷歌大脑、OpenAI的核心研究员,达里奥的履历闪闪发光。但如今,他不仅是技术领袖,更是一家全球增长最快企业的掌舵人。在这次深度对话中,他以前所未有的坦诚,揭示了Anthropic火箭般增长背后的商业逻辑、独特的公司文化,以及他对AI未来的深刻洞见。 一切始于信任:七位联合创始人与“反常识”的股权结构 很多人会好奇,和自己的亲兄妹一起创业是种怎样的体验?达里奥的妹妹丹妮拉(Daniela)正是公司的总裁。达里奥笑着说,这其实是一种绝佳的互补。他负责战略,思考那些别人没看到或最重要的事;而丹妮拉则负责将战略落地,高效执行。他们各司其职,彼此拥有绝对的信任。 但Anthropic的“反常识”之处远不止于此。公司创立之初,竟有七位联合创始人。当时几乎所有人都警告他:“这简直是场灾难,公司很快就会在内斗中分崩离析。”更让人大跌眼镜的是,达里奥决定给每位联合创始人完全相同的股权。 “事实证明,这恰恰是我们力量的源泉。”达里奥解释道。这七个人不仅是同事,更是长期并肩作战、价值观高度一致的伙伴。这种深度的信任基础,让公司在指数级扩张的过程中,依然能牢牢守住核心价值观和团结。七位创始人就像七个灯塔,将公司的理念投射到不断壮大的团队中。 AI的商业引擎:像开发新药一样,打造一个个“盈利公司” Anthropic的增长速度堪称商业史上的奇迹。达里奥分享了他们令人难以置信的融资经历: 2023年初,公司收入为零。他向投资者预测当年能实现1亿美元营收。许多人认为他“疯了”、“失去了所有信誉”。结果,他们做到了。 2024年初,他预测能从1亿美元增长到10亿美元。质疑声依旧,但他们再次做到了。 如今,公司的年化收入已远超40亿美元。 这种指数级增长的背后,是一种完全不同于传统软件的商业模式。达里奥将其类比为药物研发。 “你可以把我们训练的每一个模型,都看作一个独立的公司。” 想象一下这个场景: 2023年:你投入1亿美元训练一个模型(就像研发一款新药)。 2024年:这个模型为你带来了2亿美元的收入。从单个项目看,它是盈利的。 但与此同时,在2024年,你基于技术进步,又投入了10亿美元去训练一个更强大的下一代模型。 2025年:这个10亿美元的模型可能会带来20亿美元的收入,但你可能又会投入100亿美元去研发下一个…… 从传统的损益表(P&L)来看,公司似乎一直在“亏损”,而且亏损额越来越大。但如果我们把每个模型看作一个独立的产品(或一家公司),它们实际上是盈利的。真正发生的是,公司在享受上一代模型带来的回报时,正以前所未有的规模对下一代技术进行更庞大的研发投资。 “我们正处在这条指数曲线上,”达里奥说,“这条曲线何时会放缓?我们会在多大的规模上达到平衡?这是我们每天都在面对的不确定性,也是这个领域最迷人的地方。” 他半开玩笑地补充道,这种商业增长与模型能力的提升存在一种“换算关系”。当你投入10倍的资源,模型能力从“聪明的本科生”跃升为“聪明的博士生”,客户(比如一家制药公司)会发现,后者的价值远远超过前者的10倍。这就像模型自身就有一种学习和在市场上取得成功的内在资本主义冲动,而产品和市场团队的工作,就是“擦亮窗户,让光芒照射进来”。 钱从哪儿来?编码只是冰山一角 AI到底在被用来做什么?为什么能产生如此巨大的收入? 达里奥指出,目前增长最快的应用是编程。这并非因为AI只能写代码,而是因为程序员这个群体本身就是技术的早期采用者,他们与AI开发者在技术和社交上都非常接近,使得新技术的扩散速度极快。 “一个新功能发布两小时后,网上就已经有人用它尝试了一万种可能,并形成了初步的社群意见。”他感叹道。 但编程只是一个预兆,它预示了即将在所有行业发生的事情。 客户服务:与Intercom等公司的深度合作,自动化处理大量重复但又各有不同的客户问询。 科学与生物:与Benchling这样的科学平台合作,也与大型制药公司如诺和诺德(Novo Nordisk)合作。一个惊人的案例是,过去需要九周才能完成的临床研究报告,Claude能在五分钟内生成初稿,人类只需几天时间检查即可。 金融服务:推出针对金融行业的Claude版本。 国防与情报:尽管这在外界看来颇具争议,但达里奥认为这是在践行“捍卫民主”的使命,而非简单的商业考量。他坦言,从商业角度看,从一家编程创业公司那里赚到同样多的钱,要比和政府打交道容易一个数量级。 API不是商品,模型就像有不同性格的厨师 有人认为,API生意没有粘性,最终会被商品化。达里奥和采访者都笑了,他们都经营着成功的API业务。 “这种说法就像是在说,如果我跟九个身高差不多、大脑结构相似的人待在一个房间里,我就被‘商品化’了,谁还需要我呢?”达里奥打了个风趣的比方。 他认为,AI模型远非商品。每个模型都有自己独特的**“个性”和“风格”**。 “这有点像烘焙蛋糕,或者说请不同的厨师做菜。你放入同样的食材,但不同的厨师做出来的味道就是不一样。你无法让一个厨师完全复制另一个人的手艺。” 客户会发现,在处理特定任务时,某个模型的回答就是更符合他们的偏好,即使他们也说不清为什么。而未来,**个性化(Personalization)**将成为加深这种“粘性”的强大护城河。当一个模型深度学习了你的个人偏好或公司业务流程后,切换的成本会变得极高。 “AGI信仰者”文化:如何在一个指数时代航行? 面对AI领域激烈的人才争夺战和天价薪酬包,Anthropic如何留住核心人才并保护商业机密?达里奥的答案是,打造一个**“AGI信仰者”(AGI-pilled)**的组织。 “AGI信仰者”意味着整个公司的每个人,从财务到招聘,从产品到法务,都深刻理解并围绕一个核心假设来工作:我们正处在一个技术能力呈指数级增长的时代,这会带来巨大的机遇和颠覆性的变化。 人才与IP:相比于个别的“价值一亿美元的几行代码”,达里奥认为公司真正的护城河是**集体性的“know-how”**和难以泄露的复杂工程能力。同时,他们通过信息分级(Compartmentalization)和非常高的员工保留率(在AI公司中最高)来保护自己。人们之所以留下,是因为对公司使命的真正信仰,以及对公司股权未来价值的看好。 产品开发:在AI时代,传统的产品路线图可能毫无意义。“如果你计划用六个月打造一个完美产品,那可能已经太晚了。”达里- 奥建议。产品必须围绕AI能力的未来发展方向来设计,避免成为一个轻易被下一代模型迭代掉的“包装纸”(wrapper)产品。迭代速度必须极快,因为你总是在**“第一天”**探索未知。 用户界面(UI):达里奥承认,目前的AI交互方式(比如文本框)还非常原始,处在“拟物化”(Skeuomorphism)或“无马马车”(horseless carriage)的阶段。未来的挑战在于设计一种全新的交互范式:既能让AI代理高效自主地完成任务,又能在关键时刻让用户轻松介入、审查和引导,而不会被海量信息淹没。 冲破“墙壁”,拥抱奇特的未来 从“AI无法推理”到“AI无法做出新发现”,再到“AI无法持续学习”,历史上AI的发展一次次冲破了人们设下的“根本性壁垒”。达里奥认为,这些所谓的“墙壁”,很多时候源于一种现代“活力论”(vitalism)——人们总想相信人类的认知有某种机器无法企及的、神秘的特殊性。 “事实是,AI模型的错误会比人类少得多,但它们的错误会更‘奇怪’。”他指出。一个喝醉酒的客服人员,我们能轻易识别他的状态不可信。但AI在犯错时,可能听起来依然条理清晰、充满自信。这需要我们人类去适应一种全新的协作模式和判断标准。 对于未来,达里奥预测,像AI自动完成报税这样的复杂任务,可能在2026或2027年就能实现,比许多人预想的要早。 面对AI带来的风险和潜在的经济冲击,他并不主张“暂停”或“减速”,因为这在现实中既不可能也不明智。他更倾向于建立**“护栏”**。如果说AI能带来10%的经济增长,那么为了安全和稳定,我们是否愿意接受9%的增长,并用那1%来购买“保险”? “我不想停止这场化学反应,”达里奥最后说,“我只想聚焦它的方向,确保它不会过热或冲出跑道。” 在与达里奥的对话中,你能清晰地感受到一种独特的张力:一边是对技术指数级进步的狂热信念和巨大野心,另一边则是对随之而来的巨大责任的冷静思考和审慎前行。这或许就是一家注定要深刻改变世界的公司,所应有的姿态。

August 7, 2025 · 1 min · fisherdaddy

2025 年第二季度全球 AI 进展简报

本摘要概述了 Artificial Analysis 发布的《2025 年第二季度 AI 状况报告》的重点内容,分析了人工智能行业在模型、应用和硬件方面的最新进展与趋势。 核心内容 行业进入成熟期,竞争格局重塑:2025 年第二季度,AI 行业展现出显著的成熟迹象。在语言模型领域,xAI 的 Grok 4 首次超越 OpenAI,成为智能水平最高的模型,标志着前沿领域的竞争愈发激烈。同时,中国 AI 实验室在开源语言模型和视频生成技术方面表现出强大的领导力。 AI 代理 (Agents) 应用爆发:AI 代理技术正从实验阶段迅速走向实际生产应用,尤其是在编程领域。本季度涌现出大量编码代理产品,它们通过自主执行复杂任务,显著提升了开发效率,成为推动 AI 应用落地的关键力量。 多模态技术持续突破:虽然文本生成图像的进展放缓,但视频生成技术取得了突破性进展,无论在视频质量还是在音视频同步生成方面(如 Google Veo 3)都达到了新的高度。语音合成技术也朝着更真实、更低成本的方向发展。 算力需求与硬件迭代加速:随着模型日益复杂及代理应用的普及,对计算资源的需求急剧增加。NVIDIA 推出的新一代加速器 B200 在性能上远超前代产品,行业关注点也从单个芯片的性能转向整个系统的综合表现,以应对更大规模的训练和推理挑战。 关键细节 语言模型 (Language Models) 智能水平排名:根据 Artificial Analysis 智能指数,xAI 的 Grok 4 以 73 分的成绩位居榜首,超越了 OpenAI 的 o3-pro (71 分) 和 Google 的 Gemini 2.5 Pro (70 分)。 开源模型崛起:以 DeepSeek R1 为代表的开源模型在性能上已接近顶级专有模型,其中,来自中国的 DeepSeek、MiniMax 和 Alibaba 等实验室在开源领域处于领先地位。 成本与效率:模型推理成本大幅下降,前沿水平(智能指数 ≥ 50)的推理价格在第二季度下降了近 75%。然而,推理(Reasoning)模型和 AI 代理等新应用会消耗高达 10 倍以上的计算资源,导致总体算力需求持续增长。 AI 代理 (AI Agents) 产品快速增长:仅在 2025 年第二季度,市场上就出现了 12 款主要的编码代理新产品,包括来自 OpenAI 和 Google 的工具。 市场采纳情况:在 AI 编码工具中,GitHub Copilot 和 Cursor 的市场需求最高,占据主导地位。 成本影响:代理工作流会增加 token 和工具的使用量,从而推高成本。例如,一次深度研究查询的费用最高可达 28 美元。 多模态模型 (Image, Video & Speech) 视频技术突破:Bytedance 的 Seedance 1....

August 7, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 开源的两款 LLLM 模型:gpt-oss-120b 和 gpt-oss-20b

OpenAI 在 2025 年 8 月 5 日最新发布了两个开源权重语言模型:gpt-oss-120b 和 gpt-oss-20b。这两个模型在保持低成本和高效率的同时,提供了顶尖的性能,特别是在推理和工具使用方面,并确立了开源模型安全性的新标准。 主要内容 发布高性能开源模型:OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b 两款模型,它们采用灵活的 Apache 2.0 许可证,旨在以低成本在消费级硬件上实现高效部署。 强大的推理与工具使用能力:这些模型经过优化,在推理任务上表现出色,性能可与 OpenAI o4-mini 等先进模型媲美,并具备强大的工具使用、少样本函数调用和思维链(CoT)推理能力。 安全是核心:OpenAI 将安全放在首位,通过全面的安全训练、评估以及创新的“最坏情况微调”测试来评估和降低潜在风险,为开源模型树立了新的安全标杆。 推动 AI 民主化与创新:通过开源这些模型,OpenAI 旨在赋能从个人开发者到大型企业的各类用户,在自有基础设施上运行和定制 AI,从而促进全球范围内的 AI 创新、研究和应用,扩大民主化的 AI 发展路径。 关键细节 模型性能与规格 gpt-oss-120b: 性能:在核心推理基准测试中接近 OpenAI o4-mini 的水平。 硬件要求:可在单张 80 GB GPU 上高效运行。 参数:总参数量为 117b,每次推理激活 5.1B 参数。 gpt-oss-20b: 性能:在通用基准测试中表现与 OpenAI o3-mini 相当。 硬件要求:仅需 16 GB 内存,适用于设备端应用和本地推理。 参数:总参数量为 21b,每次推理激活 3.6B 参数。 基准测试表现: 在编程(Codeforces)、数学竞赛(AIME)、健康(HealthBench)和工具调用(TauBench)等多个领域,两款模型均表现优异,甚至在某些方面超越了 GPT-4o 等专有模型。 技术架构与训练 架构:模型基于 Transformer 架构,并采用专家混合(MoE)技术来提高效率。它们还使用了分组多查询注意力(grouped multi-query attention)和旋转位置编码(RoPE),支持高达 128k 的上下文长度。 训练数据:主要使用以 STEM、编程和通用知识为重点的英文文本数据集进行训练。 后训练:采用了与 o4-mini 类似的后训练流程,包括监督微调和高算力强化学习阶段,以对齐 OpenAI Model Spec 并教授模型进行思维链(CoT)推理和工具使用。值得注意的是,模型的 CoT 未经直接监督,以便于研究和监控模型行为。 安全性措施 主动风险评估:OpenAI 通过对模型进行恶意的、针对特定领域(如生物和网络安全)的微调,来模拟攻击者行为并评估潜在风险。结果表明,即使经过恶意微调,模型也未能达到危险的能力水平。 安全训练:在预训练阶段过滤了与化学、生物、放射性和核(CBRN)相关的有害数据;在后训练阶段,通过蓄意对齐等技术教会模型拒绝不安全的提示。 社区参与:发起 50 万美元奖金的“红队挑战赛”(Red Teaming Challenge),鼓励社区共同发现和解决新的安全问题。 可用性与生态系统 获取方式:模型权重在 Hugging Face 上免费提供,并原生支持 MXFP4 量化。 工具与支持:同时开源了 harmony 提示格式渲染器、PyTorch 和 Apple Metal 的参考实现以及示例工具集。 广泛合作:与 Azure、Hugging Face、NVIDIA、AMD 等领先的部署平台和硬件厂商合作,确保模型可以被广泛、便捷地使用。微软还将在 Windows 设备上推出 gpt-oss-20b 的优化版本。 第三方评测 OpenAI gpt-oss 模型独立基准测试:gpt-oss-120b 是最智能的美国开源权重模型,智能程度落后于 DeepSeek R1 和 Qwen3 235B,但具有效率优势。...

August 6, 2025 · 4 min · fisherdaddy

介绍一下 Google 最新发布的世界模型 Genie 3

Genie 3 是一项在世界模型领域取得重大突破的技术,其核心能力在于实时创造可供探索的虚拟环境。它不仅能模拟物理世界和自然生态,还能构建富有想象力的虚构场景。该模型的主要目标是推动人工智能研究,特别是为机器人等具身智能体(embodied agent)提供一个广阔、一致且可控的训练平台,从而加速通用人工智能(AGI)的进程。Google DeepMind 强调负责任的开发,目前以有限研究预览的形式发布 Genie 3,以便在探索其潜力的同时,收集反馈并管理相关风险。 您的浏览器不支持视频标签。 核心技术与能力 多样的世界生成:Genie 3 能够生成各种类型的世界,包括: 物理模拟:模拟水流、光照等物理现象和复杂的环境互动。 自然生态:生成包含动植物行为的生动生态系统。 虚构动画:创造富有想象力的奇幻场景和动画角色。 历史与地理探索:重现特定地点(如阿尔卑斯山)和历史时期。 实时交互性:模型实现了高度的可控性和实时互动。它能在一秒内多次响应用户的导航输入,实现流畅的实时探索体验。 长期环境一致性:Genie 3 生成的环境能在数分钟内保持高度的物理一致性,其视觉记忆可追溯至一分钟前。这是一种“涌现”能力,与依赖显式 3D 表征的 NeRFs 或 Gaussian Splatting 等技术不同。 可提示的世界事件:除了导航控制,用户还可以通过文本指令(promptable world events)来改变世界,例如更改天气或引入新物体,极大地增强了互动性和场景的丰富度。 应用与未来方向 推动智能体研究:Genie 3 已被用于为 Google 的通用智能体 SIMA 提供训练环境。由于其环境的一致性,智能体可以在其中执行更长、更复杂的任务序列。 未来潜力:该技术有望在教育、专业培训、机器人和自动驾驶系统等领域创造新的机会,提供一个广阔的平台来训练和评估智能体的性能。 局限性与责任 当前局限性: 智能体可直接执行的动作空间有限。 精确模拟多个独立智能体之间的复杂互动仍是挑战。 无法完美准确地再现真实世界的地理位置。 文本渲染效果不佳。 连续互动时长限制在几分钟内。 负责任的开发:Google DeepMind 认识到该技术的潜在风险,与责任创新团队紧密合作。目前,Genie 3 作为有限研究预览版,仅向一小部分学者和创作者开放,以收集反馈,确保技术以安全、负责任的方式发展。

August 6, 2025 · 1 min · fisherdaddy

AGI 离我们还有多远?Google DeepMind CEO 的坦率预测与未来蓝图

本文整理自 WIRED 资深编辑 Steven Levy 对 Google DeepMind CEO 戴密斯·哈萨比斯的最新专访,以下为视频精选内容。 在这个人工智能(AI)浪潮席卷全球的时代,我们每个人都感受到了那股既兴奋又不安的复杂情绪。一方面,我们对AI的潜力充满期待——它或许能为我们找到治愈顽疾的良方,发现可持续的新能源,为人类社会带来不可思议的福祉。这是AI许诺给我们的光明未来。但另一方面,担忧也如影随形:如果第一代强大的AI系统被植入了错误的价值观,或者其本身存在安全隐患,后果可能不堪设想。 在这场机遇与挑战并存的变革中,Google DeepMind的CEO,同时也是诺贝尔奖得主和被授予爵士头衔的戴密斯·哈萨比斯(Demis Hassabis),无疑是站在风暴中心的关键人物。在一次深度访谈中,他坦诚地分享了自己对于通用人工智能(AGI)、未来工作以及人类社会终极命运的看法。 AGI倒计时:5到10年,但我们还没到那一步 哈萨比斯创立DeepMind的初衷,是一个充满雄心的两步走计划:“首先解决智能,然后用智能解决其他一切问题。”这个最初设定的20年计划,如今已走过15年。他觉得,他们基本还在正轨上。 这意味着什么?这意味着我们距离被人们称为AGI的时代,可能只剩下5年了。 “我觉得,在未来5到10年内,我们有大约50%的可能会实现我们所定义的AGI。”哈萨比斯给出了一个听起来相当惊人的时间表。 当然,关于AGI的定义,行业内一直争论不休。哈萨比斯和他的团队从一开始就有一个清晰的标准:一个具备人类所有认知能力的系统。为什么以人类为参照?因为人类心智是我们在宇宙中唯一已知的、证明了“通用智能”可能存在的范例。 所以,要宣称自己实现了AGI,就必须证明一个系统能在所有领域都表现出色。而现实是,我们还差得远。 哈萨比斯直言不讳地指出了当前AI(尤其是大语言模型)的软肋: 能力缺失:它们在推理、规划、记忆等方面存在明显短板。 缺乏真正的创造力:它们无法进行真正的发明,也无法提出全新的科学假说。 最关键的问题:不一致性。他举了一个绝佳的例子:DeepMind的系统(如AlphaProof)可以解决国际奥数金牌水平的难题,但同一个系统有时却会在高中数学,甚至是“数一个单词里有几个字母”这种简单问题上翻车。 “这种表现上的巨大差异,说明这些系统还没有实现真正的‘通用化’。”哈萨比斯总结道。在所有这些能力被稳定地填补之前,我们还不能说AGI已经到来。 AGI的到来:是温和的过渡,还是剧烈的风暴? 那么,当我们真的迎来AGI的那一天,世界会发生“砰”的一声巨变吗? 哈萨比斯更倾向于认为,这将是一个渐进式的转变,而非一个瞬间完成的“阶跃函数”。即便我们拥有了那样的数字智能,物理世界依然遵循着它自己的法则,工厂、机器人、基础设施的改造都需要时间。 不过,他也提到了一个令人不安的可能性,即所谓的**“硬起飞”(hard takeoff)**场景。这个理论认为,一旦某个AGI系统具备了自我改进的能力——比如自己编写下一代更强的自己——那么领先者哪怕只领先了“十分钟”,也可能在极短时间内把这点优势变成一道无法逾越的鸿沟。 “这是一个巨大的未知数,”哈萨比斯承认,“我们不知道自我改进的速度会不会那么快。”但正是这个未知数,让当下的AI竞赛变得异常激烈和关键。因为AI系统不可避免地会带有其创造者所在文化环境的价值观和规范烙印。这使得“谁先造出来”这个问题,带上了沉重的地缘政治色彩。 一场高风险牌局:安全、监管与竞争 “现在是这个领域非常紧张的时期,”哈萨比斯说。巨大的资源投入、商业和国家的双重压力,以及对未知的探索,交织在一起。 他坦言自己主要担心两类风险: 恶意行为者:个人或流氓国家将通用AI技术用于有害目的。 技术失控风险:随着AI变得越来越强大、越来越具有“主体性”(agentic),我们能否确保它的护栏足够安全,不会被自己绕过? 正因为风险如此之高,监管问题便浮出水面。几年前,科技公司们还在呼吁“请监管我们”。但如今,地缘政治的紧张空气,让一些政府的态度从“监管”转向了“加速”,生怕在竞赛中落后。 哈萨比斯依然坚持,“聪明的监管”是必要的,但他强调,这种监管必须是国际性的。“AI是数字化的,它会影响每一个人。只在一个地方限制它,对于全球整体安全而言,帮助不大。” 然而,国际合作在当下举步维艰。更棘手的是,即便西方几个主要AI实验室的负责人彼此熟悉、经常沟通,但大家对于“到底发展到哪一步就该停下来”并没有一个公认的标准。 “我们现在的时间不多了,”他承认。因此,他们正投入越来越多的资源研究AI的安全、可控性和可解释性,希望用科学的方法,小心翼翼地走向AGI。在他看来,技术难题最终或许都能解决,但地缘政治问题可能会更棘手。 你的饭碗还好吗?AI时代的生存指南 聊到对工作的影响,哈萨比斯认为,目前AI更多扮演的是“辅助”和“增强”的角色,就像AlphaFold帮助科学家加速研究一样。它暂时是“加法”,而非“替代”。 但他预言,未来5到10年,我们将迎来一个**“黄金时代”**。AI工具将极大地增强我们的生产力,让个人变得有点“超人”的感觉。那些能熟练运用这些工具的人,生产力可能会提升十倍。 如果AGI能做所有人类的工作,那新创造出来的工作不也一样能被它做吗?对于这个终极问题,哈萨比斯认为,有些事情,即使机器能做,我们可能也不希望它来做。 “想想医生和护士,”他举例说,“诊断或许可以由AI辅助甚至完成,但护理工作呢?那种人与人之间的关怀和共情,我不认为你希望由一个机器人来提供。” 那么,对于即将踏入社会的毕业生,他有什么建议? “我的建议是,全身心地投入去学习和理解这些新系统。学习STEM和编程依然重要,这能让你明白它们是如何构建的。然后,去精通如何使用它们——无论是微调模型、系统提示词工程还是其他。让你自己成为一个能最大限度发挥这些新工具潜力的人。” 20年后的世界:一个“彻底富足”的乌托邦? 如果一切顺利,20到30年后,世界会是什么样子? 哈萨比斯描绘了一个他称之为**“彻底富足”(radical abundance)**的时代。他相信,AGI能够解决一些人类社会面临的根源性问题,比如: 攻克疾病,让人类活得更长久、更健康。 找到终极能源方案,比如可控核聚变或室温超导体。 当这些问题被解决后,人类将进入一个“最大程度繁荣”的时期,甚至可能开始探索星辰大海。 然而,访谈者提出了一个尖锐的质疑:我们现在已经拥有巨大的财富,但分配极其不公;我们知道如何应对气候变化,却迟迟不愿行动。一个更强大的工具,真能改变这一切吗? 哈萨比斯的回应直指问题的核心:人类之所以难以合作,是因为我们一直生活在“零和博弈”的心态中,因为地球的资源相对有限。 他用一个绝妙的例子来说明: “水资源获取。这在未来会是巨大的冲突源头。我们有解决方案——海水淡化,但它需要消耗巨量的能源,所以只有极富裕的国家才用得起。但如果,AI帮我们实现了近乎免费的清洁能源(比如核聚变),那海水淡化的成本就几乎为零。到那时,谁控制了河流就不再那么重要,因为每个人都能轻易获得淡水。一个重大的冲突源头就消失了。” 他认为,AI带来的“彻底富足”将从根本上改变游戏规则,有望将人类社会的心态从“零和”转变为“非零和”。当然,如何公平分配这种富足,依然需要伟大的哲学家和社会科学家来共同探讨。 通往未来的道路 在谈话的最后,哈萨比斯坚信,尽管目前资本主义和民主体系是推动进步的最有效引擎,但在后AGI时代,连经济学的基础、价值和金钱的概念都可能被重塑。 面对公众对AI的普遍焦虑和愤怒,他表示完全理解。但他总是尝试通过具体的例子,比如用AlphaFold帮助设计新药、治愈疾病,来解释他工作的激情所在。“如果这在我们的能力范围之内,那么不去实现它,才是不道德的。” “我经常说,”哈萨比斯在结尾留下了这样一句意味深长的话,“如果我不知道像AI这样革命性的技术即将来临,来帮助我们应对所有其他挑战,我会对我们的未来感到非常担忧。当然,AI本身也是一个挑战,但它是一个有潜力帮助我们解决其他所有挑战的挑战——前提是,我们能把它做对。”

August 3, 2025 · 1 min · fisherdaddy

从滑雪事故到精准理赔:一次 Prompt 工程实战大师课 • Anthropic

本文来自于 Anthropic 组织的线下分享会,从时间上看应该是 5 月前组织的线下分享会,里面不仅有 Claude 工程和算法团队的分享,还包括 Google、Amazon、Manus 甚至是创业者和学生的分享,特别值得观看,这里把其中我认为比较优质的视频内容整理出来分享给大家。本篇文章来自于视频 Prompt 101,以下为原视频精华。 你有没有过这样的经历:想让AI帮你做点事,结果它却给出了一个让你哭笑不得的答案?别担心,你不是一个人。这恰恰说明了“提示词工程”(Prompt Engineering)的重要性。 简单来说,Prompt工程就是我们与大型语言模型(比如Claude)沟通的艺术。它不仅仅是下达一个命令,更是关于如何清晰地描述任务、提供足够的上下文、并巧妙地组织信息,从而引导AI交出我们真正想要的完美答卷。 理论听起来有点枯燥,对吧?最好的学习方式永远是亲自动手。所以,今天我们不聊空泛的概念,而是跟着Anthropic应用AI团队的专家Hannah和Christian,通过一个真实的客户案例,一步步搭建一个高质量的Prompt。 初始挑战:一张瑞典语的事故报告单 想象一下,你是一家瑞典保险公司的理赔员。每天,你都要处理大量的汽车保险索赔。今天,你手上有两份材料: 一份手填的事故报告表:上面用瑞典语写着事故发生的各种情况,勾选了一些选项。 一张手绘的事故草图:潦草地画着两辆车是怎么撞上的。 我们的目标是让Claude分析这两份图像材料,搞清楚事故经过,并判断谁是责任方。听起来是个不错的自动化方案,对吧? Round 1: 最天真的尝试——直接把图片丢给AI 大多数人刚开始可能都会这么做:把两张图片上传,然后给一个超级简单的指令,比如: “请审查这份事故报告和草图,告诉我发生了什么,以及谁的责任。” (示意图:简单的指令界面) 结果呢?Claude的回答让人大跌眼镜。它认为这是一起发生在瑞典一条著名商业街上的滑雪事故。 等等,滑雪? 这当然是个无辜的错误。在我们极其简单的指令里,没有给AI任何场景信息。它看到了模糊的手绘线条和表格,做出了一个不那么离谱的猜测。这个结果虽然不对,但它告诉我们一个关键道理:你不能指望AI读懂你的心思,你得把舞台先为它搭好。 Prompt工程的核心:迭代与优化 这次失败恰恰是Prompt工程的起点。它就像一门实验科学,你需要不断尝试、观察结果、然后迭代优化你的指令。我们的第一个优化目标很明确:得让Claude知道,我们处理的是车辆事故,不是什么滑雪运动。 为了做到这一点,我们需要一个更专业的Prompt结构。Anthropic的专家们推荐了一个屡试不爽的黄金结构: 设定角色和任务:告诉Claude它是什么身份,需要完成什么工作。 提供上下文/文档:给出完成任务所需的背景信息或固定文档。 动态内容:这是每次请求都会变化的部分,比如我们这次的事故报告图片。 详细步骤/指令:像写SOP一样,告诉它一步步该怎么做。 提供范例 (Few-shot):如果可能,给一两个已完成的“标准答案”作为参考。 最后提醒和输出格式要求:在最后,再次强调关键规则,并指定你想要的输出格式。 听起来有点复杂?别急,我们一步步来拆解。 Round 2: 设定角色与基调——“你是专业的理赔助理” 在第一次失败的基础上,我们来丰富一下指令,加入“角色设定”和“基调要求”。 你是一名AI理赔助理,正在帮助人类理赔员审查瑞典的汽车事故报告。你的任务是分析提供的事故报告表(手填表格)和事故草图(手绘图)。 你的分析必须基于事实,保持自信。如果你对信息不确定,或无法看清内容,请直接说明,不要猜测。你的目标是判断事故责任方。 这次,我们明确了几个关键点: 角色:AI理赔助理。 领域:瑞典汽车事故。 输入:手填表格和手绘图。 基调:实事求是,不确定就别瞎说。 再次运行后,结果好多了!Claude准确地识别出这是一起汽车事故,还看出了A车和B车分别勾选了表格中的第1项和第12项。 但是,它最后补充道:“由于信息不足,我无法自信地判断谁是责任方。” 这是一个巨大的进步!它没有再犯“滑雪事故”那样的错误,并且严格遵守了我们“不确定就不猜测”的指令。现在的问题是,如何给它足够的信息,让它变得“确定”? Round 3: 提供背景知识——把“说明书”喂给AI 那份瑞典事故报告表,虽然每次填写的内容不同,但表格本身的格式和每个选项的含义是固定的。这部分信息就是完美的“背景知识”,可以预先提供给Claude。 我们决定把这份“说明书”放进**系统提示(System Prompt)**里。这样,AI在处理任何请求前,就已经把这份知识内化于心了。我们还使用了XML标签(比如``)来组织信息,这能让AI更好地理解不同信息块的作用。 系统提示词(System Prompt)里大概是这样写的: 这份表格用于记录交通事故详情。它有两列,分别代表车辆A和车辆B。表格共有17个选项,每个选项都描述了一种特定的驾驶行为或情况。 含义是“车辆停放/停止”。 含义是“离开停车位/开门”。 ... 含义是“其他情况”。 - 这是由普通人手填的,标记可能不完美,比如用圈、涂抹代替了标准的“X”。 - 仔细识别勾选了哪个框。 我们在用户指令(User Prompt)中保持不变,但现在Claude有了这份“说明书”撑腰。它不再需要每次都费力地去现场解读表格上每个瑞典单词的意思,而是可以直接调用这些预置知识。...

August 1, 2025 · 1 min · fisherdaddy