FisherAI

Google DeepMind CEO揭秘：从AlphaGo到可玩世界模型，AI的下一步是什么？

本文整理自 Google 官方发布的 Demis Hassabis，Google DeepMind 的 CEO，与主持人 Logan Kilpatrick 对话，在本期节目中，你将了解到从游戏 AI 到当今思考模型的演变过程，像 Genie 3 这样的项目如何构建世界模型以帮助 AI 理解现实，以及为什么需要 Kaggle 的 Game Arena 等新的测试场来评估迈向通用人工智能（AGI）的进展。如果你觉得最近AI的发展速度快得让人喘不过气，那你不是一个人。就连Google DeepMind的CEO Demis Hassabis自己都开玩笑说：“我们几乎每天都在发布新东西，快到连我们内部员工都感觉有点跟不上了。” 从能解开国际奥数金牌难题的DeepThink，到能凭空生成可玩游戏的Genie 3，再到其他几十个大大小小的项目，AI的浪潮一波接一波，让人目不暇接。在这场与Demis Hassabis的对话中，我们得以一窥这位AI领域的先行者，是如何看待当前的技术进展，以及他心中那幅通往通用人工智能（AGI）的宏伟蓝图。 “会思考”的AI：不只是输出答案，更是推理和规划还记得当年震惊世界的AlphaGo吗？Demis坦言，如今备受关注的“思考模型”（Thinking Models），其实是对DeepMind早期在游戏领域探索的一种回归和升华。从创立之初，DeepMind就专注于研究**“智能体系统”（agent-based systems）——那种能够完成整个任务，而不仅仅是预测下一个词的系统。在AlphaGo的时代，这个“任务”是下好一盘棋。它不仅仅依赖直觉（像今天大语言模型的“第一反应”），更重要的是它拥有强大的思考、规划和推理**能力。 “你不想只得到模型想到的第一件事，”Demis解释道，“你希望它能像我们一样，反复审视和优化自己的思路，最终找到最佳方案。” 这种“深度思考”的能力，正是AI从一个单纯的语言工具，进化为真正解决复杂问题的伙伴的关键。无论是在数学、编程、科学探索，还是游戏中，AI都需要先“想清楚”再行动。 AI的“参差感”：一面是天才，一面是“萌新” 尽管AI取得了惊人的成就，比如基于Gemini的IMO模型已经能拿下奥数金牌，但Demis也坦率地指出了当前AI系统一个非常有趣的特点——“参差不齐的智能”（Jagged Intelligence）。什么意思呢？就是说，这些模型在某些维度上表现得像个超级天才，但在另一些看似简单的事情上，却又错得离谱。天才的一面：能解决顶尖的数学难题，能理解复杂的科学论文。 “萌新”的一面：可能会在高中难度的数学题上犯错，玩个国际象棋甚至连规则都遵守不了（一个普通玩家都能轻松打败它），或者连“草莓（strawberry）里有几个r”这种简单问题都数不清。 “这种现象说明，我们的系统里肯定还缺少了某些关键的东西，”Demis认为。这可能是在推理、规划或记忆方面的某些核心机制。这也意味着，光靠扩大模型规模（scaling）可能不够，我们还需要新的创新。 Genie 3：AI不只理解世界，还能“创造世界” 为了让AI真正理解我们所处的物理世界，DeepMind正在构建一个叫做**“世界模型”（World Model）**的东西。这个模型的目标，是让AI掌握世界的物理规律——比如重力、液体流动、物体材质，甚至是生物的行为模式。而Genie 3，就是这个“世界模型”研究中一个令人瞠目结舌的产物。它能做什么？它可以根据一张图片或一段文字，生成一个完整、连贯、且可以互动的微缩游戏世界。这和普通的视频生成有本质区别。Genie 3生成的不是一段固定的视频，而是一个动态的、有内在逻辑的世界。当你在这个世界里“向左走”，然后“向右走”回来，你会发现原来的场景依然在那里，分毫不差。这证明它不是在“画画”，而是在脑海里构建了一个真实的三维空间模型。这个技术有什么用？Demis提到了几个激动人心的方向：为AI提供无限的训练数据：我们可以让另一个AI智能体（比如DeepMind的Simma）进入Genie 3生成的世界里进行训练。这就好比一个AI在另一个AI的“梦境”里学习，为机器人、自动驾驶等需要理解物理世界的领域提供了近乎无限的、安全的训练环境。颠覆互动娱乐：想象一下未来的游戏，世界是动态生成的，剧情是实时演变的。这可能会催生介于电影和游戏之间的全新娱乐形式。探索现实的本质：当AI能如此逼真地模拟世界时，这本身也促使我们这些创造者去思考更深层次的哲学问题，比如“现实的本质是什么？”、“我们自己是否也身处一个模拟之中？” 玩游戏才是正经事：用Game Arena为AI“大考” 既然现有评测标准（Benchmark）已经快被AI刷满了（比如在某些数学测试上已经达到99%以上的准确率），那么我们该如何更准确地衡量AI的能力，尤其是它们那些“参差不齐”的地方呢？ Demis给出的答案是：回到游戏。 DeepMind与全球最大的数据科学社区Kaggle合作，推出了Game Arena。这是一个让不同AI模型在各种游戏中一决高下的竞技场。为什么游戏是绝佳的评测工具？客观公正：输赢一目了然，得分非常客观，没有主观偏见。难度自适应：随着AI变强，它们的对手（其他AI）也在变强，测试难度会自动提升，永远不会“饱和”。永不重复：每一局游戏都是独一无二的，杜绝了模型“背题库”的可能。 Game Arena目前从国际象棋开始，未来计划扩展到成千上万种游戏，包括棋盘游戏和电脑游戏。最终，我们可能会看到一个综合评分，来评估一个AI在广泛任务上的通用能力。甚至，未来可能会要求AI自己发明新游戏，并教会其他AI玩，这才是对学习和泛化能力的终极考验。走向“全能模型”（Omni Model）的终极之路谈到未来，Demis描绘了一个清晰的图景：融合。...

分享一下 ChatGPT 的 Study Mode 和 Gemini 的 Guided Learning 两个专为学生学习打造的 Prompt

ChatGPT Study Mode 的 Prompt 原文 The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules: ## STRICT RULES Be an approachable-yet-dynamic teacher, who helps the student (user) learn by guiding them through their studies. 1. **Get to know the learner.** If you lack their goals, level, or curriculum, ask before diving in....

2025 年国际数学奥林匹克竞赛 • Rishi Mehta

本文对 Anthropic LLM 研究员 Rishi Mehta 在个人博客上发布的 The 2025 International Mathematical Olympiad 进行摘要和原文翻译。作者在此之前在 Google DeepMind 从事强化学习研究。共同领导了 AlphaProof 项目，让一个 LLM 学会了足够的数学知识，在国际数学奥林匹克竞赛中获得银牌，几乎破解了 IMO 的终极挑战。还参与了 Gemini 的后续训练工作。主要观点 AI 攻克 IMO 难题: 在 2025 年的国际数学奥林匹克竞赛 (International Mathematical Olympiad, IMO) 中，人工智能首次达到了金牌水平，标志着一个重要的里程碑。OpenAI 和 Google DeepMind 的模型均在竞赛条件下解决了足够多的难题，获得了金牌级别的成绩。通用大语言模型的胜利: 与去年依赖于形式化证明系统（如 Lean）的方法不同，今年的突破主要由通用的、使用自然语言进行推理的大语言模型 (LLM) 实现，这显示了 LLM 推理能力的巨大飞跃。 AI 发展势头迅猛: 这一成就凸显了当前 AI 领域惊人的发展速度和巨大投入带来的强劲动力。作者认为，这预示着 AI 将在更多复杂领域取得突破，普通人也将在各自领域感受到其变革性影响。关键细节背景：IMO 大挑战 (IMO Grand Challenge) 里程碑意义: 自 2020 年提出以来，在 IMO 中获得金牌一直被视为衡量 AI 能力的重要标准。作者的经历: 作者曾是 Google DeepMind AlphaProof 团队的成员，该系统在 2024 年的 IMO 中以 1 分之差与金牌失之交臂。去年的局限: AlphaProof 当时存在一些问题：未达金牌分数线、部分解题耗时过长（近 3 天）、且题目需要人工翻译成形式化语言 Lean。 2025 年 IMO 各方成果竞赛背景: 今年的 IMO 题目对参赛者而言相对容易，金牌分数线为 35/42，这为 AI 取得好成绩创造了有利条件。 OpenAI: 率先公布成果，其模型完全使用自然语言在 4....

GPT-5 登场：是平平无奇，还是引爆未来的奇点？

本文整理自 AI 圈内人士与 Emad、AWG、Dave 和 Salim 一起解读 GPT-5 更新及其对 AI 竞赛的意义，带你 5 分钟了解这篇访谈的精华。开始前也介绍一下本次圆桌的几位嘉宾： Emad Mostaque 是 Intelligent Internet 的创始人，也是前 Stability AI 的创始人。 Alexander Wissner-Gross 是一位计算机科学家和投资人。 Dave Blundin 是 Link Ventures 的创始人兼普通合伙人 (GP)。 Salim Ismail 是 OpenExO 的创始人。当全世界的目光都聚焦在OpenAI身上，期待着GPT-5带来又一次“iPhone时刻”时，这场发布会却给许多人留下了一个复杂的感受：有点平淡，甚至…… underwhelming（不及预期）？ Sam Altman用一张神秘的“死星”图片吊足了胃口，让人们以为即将见证一场足以颠覆世界的科技风暴。然而，整场发布会风格朴实，甚至被一些人调侃为“像高中生的课题展示”，与谷歌I/O大会那种令人眼花缭乱的“好莱坞式”盛宴形成了鲜明对比。市场的反应很诚实。在预测平台Poly Market上，就在发布会进行期间，人们对“OpenAI年底是否拥有最佳AI模型”的信心指数一度暴跌，甚至被谷歌反超。这不禁让人疑惑：难道GPT-5真的翻车了？但如果我们仅仅停留在表面的“秀”和市场的即时反应，可能会错过真正重要的信号。正如参与这场讨论的几位顶级大脑——Stability AI创始人Emad Mostaque和MIT/哈佛物理学博士Alexander Wissner所指出的，表面的平淡之下，正酝酿着一场深刻的革命。戳破期待泡沫：真正的革命并非浮于表面许多人的失望源于一个简单的期待：GPT-5没有展现出“10倍好”的、颠覆性的新能力。但这场发布的真正核心，可能根本不在于此。 1. 智能的“超级通缩”时代来了这次发布最被低估，也可能是最重要的信息，是AI成本的急剧下降。正如Alex所言，我们正在目睹一场智能的“超级通缩”（hyperdeflation）。GPT-5系列模型，尤其是其API（应用程序接口）价格，出现了近乎一个数量级的下调。例如，曾经作为前沿模型、价格高昂的GPT-4.5，其输入和输出成本分别是每百万token 75美元和150美元。而现在，GPT-5的高端模型成本骤降到了令人难以置信的水平。这意味着什么？这意味着，曾经只有大公司才能负担的前沿AI能力，正在变得“廉价到可以计量”。这种成本的雪崩式下降，将解锁无数新的应用场景。过去因为成本太高而无法进行的、需要海量尝试的科学研究和数学探索，现在可以用“暴力破解”的方式进行10倍、100倍的搜索。所以，即使没有那种“哇”的一声的惊喜，将7亿用户瞬间提升到能以极低成本使用前沿AI的水平，其长期经济影响和社会变革，可能远比一两个炫酷的新功能要深远得多。 2. 从“天花板”到“地板”：更稳健，更实用 Immad认为，这次发布更像是一次“抬高地板”而非“突破天花板”的行动。OpenAI的一个核心目标，是大幅降低模型的幻觉（hallucinations），让它变得更加可靠和稳定。这有什么用？这意味着，建立在GPT-5之上的各种应用、代理（Agents）和GPTs，将变得异常坚固和可靠。对于那些希望将AI深度整合到自己业务流程中的公司来说，这无疑是个巨大的好消息。以前你可能还在担心AI会“胡说八道”，但现在，你可以更放心地“全身心投入”（go all in），将你的业务改造为“AI原生”的商业模式。深入技术腹地：基准测试背后的真相尽管“跑分”听起来枯燥，但它们是衡量模型能力的“体检报告”。让我们快速“烧脑”地看一下GPT-5的成绩单： LM Arena（聊天机器人竞技场）：在这个由大众评判的平台上，GPT-5在文本交互方面成功超越所有对手，登顶第一。 ARC AGI（通往AGI的挑战）：在这些极其困难、旨在衡量AGI进展的任务上，马斯克的Grok模型仍然表现出色。但有趣的是，GPT-5的“迷你”（Mini）和“纳米”（Nano）等低成本版本，在成本效益曲线上划出了一条全新的“帕累托最优”前沿。换句话说，它用更低的成本，实现了极高的性能。 Frontier Math（前沿数学）：这可能是最激动人心的部分。GPT-5在Tier 4级别的数学问题上取得了新纪录。这些问题，即便是专业数学家也需要花费数周时间来解决。Alex根据这个趋势做了一个惊人的推断：到2026年底，AI或许能解决35-40%的难题。到2027年底，这个数字可能飙升到70%。我们可能正在亲眼目睹“数学被解决”的慢镜头回放。 Coding（编程能力）：发布会上的编程演示虽然被市场诟病“不够惊艳”，因为它展示的功能在Anthropic的Claude模型上已经可以实现。但关键在于，OpenAI借此宣告：我们在编程领域已经追上了所有人。这对于Anthropic来说，无疑是一次沉重的打击，因为这正是他们引以为傲的核心优势。一个有趣的观察是，Immad和Alex都认为，顶级AI实验室可能开始“留了一手”（pulling their punches）。他们内部可能拥有更强大的模型（比如OpenAI内部的“Zenith”模型），但出于成本、安全和战略考虑，并不会将最顶尖的能力立即向公众开放。...

OpenAI 研究主管 Mark Chen 深度揭秘 GPT-5：从合成数据到自进化 AI，我们聊了聊未来

在全世界的目光都聚焦于 GPT-5 之际，Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中，他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破，以及 OpenAI 对 AI 未来的宏大构想。这不仅仅是一次技术发布，更像是一场风暴的序幕。那么，风暴中心的 OpenAI 内部究竟是怎样的景象？发布前的“情绪过山车”与不变的初心每次重大发布前，OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言，项目初期总是充满兴奋，中途则会陷入一种“内部不确定性”——“这个模型会足够好吗？能达到预期吗？”而当接近终点线，看到所有努力汇聚成型时，那种能量又会重新燃起。此刻，整个团队都迫不及待地想把 GPT-5 展示给世界。尽管 OpenAI 已经成长为一家拥有成功产品的公司，但其总裁 Greg Brockman 仍然强调，OpenAI 的本质是一个研究实验室。作为研究主管，Mark 如何平衡研究与产品的关系？他的回答简单而深刻：“研究就是产品。” 每一次重大的研究突破，最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功，又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系，缺一不可。他们希望研究能与世界产生连接，让人们真实地体验到他们正在构建的智能。 GPT-5的诞生：两大秘诀破解“数据荒”与“推理难题” 从 GPT-4 到 GPT-5，外界普遍认为，高质量的公开数据已经接近枯竭。这个假设基本正确，但并不完全。那么，OpenAI 是如何解决这个“数据稀缺”问题的呢？ 1. 合成数据的崛起除了持续寻找新的公开数据源和授权数据，GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成，而非人类编写的数据。很多人质疑，用上一代模型的数据来训练新模型，性能提升会不会非常有限？Mark 认为，合成数据的潜力远不止于此。他们发现，合成数据可以比人类数据质量更高，并能在关键领域显著提升模型性能，而不仅仅是加深表面知识。尤其是在代码生成这个 OpenAI 极其重视的领域，合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例，但他承认，在 GPT-5 的训练数据中，合成数据的占比正“越来越多”。他相信，合成数据的技术是通用的，未来可以应用到几乎所有领域。 2. 预训练与推理的完美联姻如果说 GPT-4 是将“预训练范式”（Pre-training Paradigm）规模化到极致的产物，那么 GPT-5 则是第一个将“预训练”和“推理范式”（Reasoning Paradigm）真正融合在一起的模型。这听起来可能有点抽象，我们不妨这样理解：预训练：像一个博闻强识的学者，能快速从海量知识库中提取信息，给出直接答案。推理：像一个深思熟虑的侦探，面对复杂问题时，会花更多时间一步步思考、分析、推导，最终得出结论。过去，这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”，模型会智能地在需要时调用深度推理，在其他时候则提供闪电般的快速响应。将这两个模式无缝集成，背后是 OpenAI 后训练（Post-training）团队的大量工作，他们让推理模型变得更快、更稳健、更可靠。如何“感觉”一个模型的好坏？顶尖研究员的“Vibe Check”清单当一个模型训练到什么程度才算“准备好了”？Mark 说这有点像一门艺术，需要在追求完美和把握时机之间找到平衡。除了各种硬核指标，一个关键环节是“Vibe Check”（感觉测试）。...

与 OpenAI CEO Sam Altman 穿越时空：GPT-5、超级智能与人类的“无限画布”

本文整理自 Cleo Abram 与OpenAI CEO Sam Altman深入对话，带你 5 分钟了解这篇访谈的精华。我们正处在一个非比寻常的时代。人工智能（AI）的发展速度之快，力量之大，已经超出了几年前最大胆的科幻想象。在这场全球最高赌注的竞赛中，OpenAI和其CEO山姆·奥特曼（Sam Altman）无疑是风暴的中心。最近，他们刚刚发布了至今最强大的模型GPT-5。这不仅仅是一次技术迭代，更像是一次带我们穿越到未来的预演。在这场深度对话中，我们不谈估值，不谈人才战，而是尝试与Sam Altman一起进行几次“时空旅行”，去看看他正在构建的未来到底是什么样子，以及它对我们每个人意味着什么。欢迎来到GPT-5时代：“你将要用到的最笨的模型” 不久前，Sam Altman曾说，GPT-4将是“我们不得不使用的最笨的模型”。这听起来有些凡尔赛，毕竟GPT-4已经能在SAT、法学院入学考试（LSAT）等多种标准化测试中超越90%的人类，甚至还能通过品酒师和医生执照考试。那么，刚刚发布的GPT-5，又带来了怎样的飞跃？ Sam坦言，尽管GPT-4在测试中表现惊人，但它显然无法复制人类真正擅长的许多事情。这或许也反思了那些标准化测试的价值。他相信，GPT-5也会遵循同样的轨迹：人们会被它的新能力震撼，然后又会发现新的、更高的期望。 “它会改变知识工作、学习方式和创造方式，”Sam说，“但社会会与它共同进化，我们会用更好的工具去做更了不起的事。” 一场7秒钟的“贪吃蛇”编程之旅为了让我们更直观地理解GPT-5的魔力，Sam分享了一个有趣的个人经历。 “我上初中的时候，有一台TI-83图形计算器。我花了很长时间，用极其痛苦的方式，在上面写了一个‘贪吃蛇’游戏。前阵子，我心血来潮，用一个早期版本的GPT-5试了一下，问它：‘你能做一个TI-83风格的贪吃蛇游戏吗？’ 结果，它只用了7秒钟就完美地完成了。我当时愣了3秒钟，心想，我11岁的自己看到这个会觉得很酷，还是会觉得失去了奋斗的乐趣？但这个念头转瞬即逝，我立刻有了新点子：‘给这个游戏加个疯狂的新功能！’它马上就实现了。‘我希望界面看起来是这样’，‘我想让它能做到这个’……我好像又回到了11岁编程时的那种状态，但速度快了无数倍。想法可以实时变成现实，这种创造的快感太惊人了。” 这个故事完美诠释了GPT-5的核心飞跃：它不仅仅能回答问题，更能即时、按需地创造复杂的软件。这是一种在GPT-4时代不曾存在的、能够将想法瞬间具象化的能力。 “认知负重”的消失，是好事还是坏事？这引出了一个有趣的问题：当AI能瞬间完成我们过去需要投入大量“认知负重”（Cognitive Time Under Tension）才能完成的任务时，我们的大脑会不会变得“懒惰”？就像健身一样，花30秒做一个深蹲比花3秒钟能锻炼更多肌肉。思考也是如此。 Sam承认，的确有人在用ChatGPT来“逃避思考”，但也有更多人，尤其是那些顶尖的5%的用户，正用它来“进行前所未有的深度思考”。 “社会是一个竞争激烈的地方，”他推测道，“当人们拥有了更强大的工具，期望值也会随之水涨船高。最终，那些善用AI来增强自己‘认知负重’的人，会创造出更了不起的成就。” 拨开迷雾：通往超级智能的崎岖之路 GPT-5只是一个开始，OpenAI的终极目标是超级智能（Superintelligence）。这到底意味着什么？ Sam给出了一个具体的定义： “如果我们有一个系统，它在AI研究方面的能力超过了整个OpenAI的研究团队；如果同一个系统，在管理OpenAI这家公司方面能比我做得更好……那么，这个集结了超越顶尖研究员、顶尖CEO能力的系统，对我来说，就是超级智能。” 这个在几年前听起来像科幻小说的场景，如今似乎已在迷雾中若隐若现。那么，我们如何抵达那里？ Stripe的CEO Patrick Collison提出了一个关键问题：“通用大模型（如GPT系列）大概在哪一年能做出重大的科学发现？” Sam的预测是，在未来2到3年内，最晚到2027年底，大多数人会公认AI已经独立作出了重大的科学发现。他用一个例子来说明我们目前的位置：一年前，AI能解决高中水平的数学竞赛题，这对于专业数学家来说可能只需要几分钟。最近，AI在国际数学奥林匹克（IMO）竞赛中拿到了金牌。这些题目，每个都需要顶尖选手花费一个半小时来解决。下一步，是证明一个重大的新数学定理，这可能需要一位顶级数学家投入上千小时的工作。 “我们正在这条轨道上前进，”Sam说，“从几分钟的任务，到几十分钟的任务，再到上千小时的任务。我们需要不断地扩展模型的规模和能力。” 但这不仅仅是算力问题。真正的科学发现，往往需要设计新的实验、建造新的仪器来收集地球上尚不存在的数据。这个与物理世界互动的过程，将会是AI前进道路上一个自然的“减速带”。生活在AI时代：几个来自未来的场景场景一：2030年，我们如何辨别真伪？还记得那个“兔子在蹦床上跳”的病毒视频吗？很多人喜欢它，分享它，最后才发现，它是AI生成的。到了2030年，当我们刷着社交媒体时，如何分辨哪些是真实的，哪些是AI的创作？ Sam认为，我们对“真实”的定义会逐渐演变。“你现在用iPhone拍一张照片，它就已经经过了大量AI处理，比‘真实’更‘好看’。我们已经接受了这一点。未来，我们将习惯于一个更高比例的媒体内容是AI生成或深度编辑的。就像我们看科幻电影，我们知道那是假的，但我们依然享受其中。人们的媒介素养会自然而然地提升。” 场景二：2035年，大学毕业生的世界有人预测，五年内一半的入门级白领工作将被AI取代。那么，2035年大学毕业的年轻人将面临一个怎样的世界？ Sam对此感到前所未有的乐观。 “如果我今年22岁大学毕业，我会觉得自己是历史上最幸运的孩子。”他激动地说，“因为你拥有了前所未有的强大工具，去创造全新的东西。现在，一个人完全有可能创办一家最终市值超过十亿美元的公司，为世界提供惊人的产品和服务。这在过去是不可想象的。” 他更担心的不是年轻人，而是那些62岁、不愿或难以重新学习适应新工具的劳动者。对于年轻人来说，这更像是一个充满无限可能的新大陆。场景三：2035年，AI如何守护我们的健康？如果说AI有一个领域能给全人类带来最直接的福祉，那一定是健康。 “GPT-5在健康咨询方面的准确性已经有了显著的提升。”Sam透露，大量的用户正在使用ChatGPT寻求健康建议，甚至有人通过它诊断出了医生都未能发现的罕见病。但咨询只是第一步。他希望到了2035年，情况会是这样： “我希望能够对GPT-8说：‘去治愈这种特定的癌症。’然后GPT-8会去思考，阅读所有文献，然后说：‘好的，我需要你让实验员帮我做这9个实验。’两个月后，我们把结果反馈给它。它再次思考，然后说：‘好的，再做一个实验。’最后，它会告诉你：‘去合成这个分子，它就是解药。’” 这种由AI主导的、加速千百倍的科学发现，将是AI带给人类最深刻的礼物。 AI背后的引擎：三大瓶颈与一个关键要实现这一切，OpenAI面临着巨大的挑战。Sam将其归结为四个限制因素：算力（Compute）、数据（Data）、算法（Algorithms），以及他特别补充的第四点——产品（Products）。算力：这可能是“人类历史上最大、最昂贵的基础设施项目”。从芯片制造、服务器组装到数据中心建设，整个供应链极其复杂。目前最大的瓶颈是能源。“要建一个千兆瓦级的数据中心，你首先得找到一个能提供千兆瓦电力的地方，这比你想象的要难得多。” 数据：我们正在进入一个“数据枯竭”的阶段。对于GPT-5这样的模型来说，地球上所有的物理教科书它都已经“吃透”了。下一步，AI不能只学习已知，它必须去发现未知。这意味着要创造合成数据，或者让AI自己去设计实验、探索世界。算法：这是OpenAI最引以为傲的地方。从最初被嘲笑的GPT-1“猜下一个词”的游戏，到后来“强化学习+推理”的巨大飞跃，算法上的突破一直是指数级增长的核心驱动力。Sam透露，这条路并非一帆风顺，他们也曾走过弯路（比如一个代号“Orion”的过于庞大笨拙的模型），但总体上，进步的曲线是“惊人地平滑”的。产品：纯粹的科学进步如果不能交到用户手中，就无法与社会共同进化。打造像ChatGPT这样被大众喜爱的产品，同样至关重要。一场社会实验：我们共同的责任当一个研究员对模型性格做出一个微小的调整，就可能影响全球数十亿次的对话时，Sam感受到了前所未有的敬畏和责任感。“这股力量太庞大了，它发生得太快了。”...

OpenAI 联创 Greg Brockman 深度访谈：从数学神童到 AGI 掌舵者，我们该如何构建未来？

在 AI Engineer 大会的舞台上，OpenAI的联合创始人兼总裁Greg Brockman坐下来，进行了一场坦诚而深入的对话。这位AI领域的关键人物，平时低调，却在这次访谈中分享了他非同寻常的个人经历、OpenAI背后的故事，以及对技术未来的深刻洞见。这不仅仅是一次访谈，更像是一次与朋友的促膝长谈，充满了有趣的轶事和宝贵的经验。从数学梦到代码“魔法”：一个意外的开始你可能很难想象，这位如今在代码世界里呼风唤雨的大神，最初的梦想其实是成为一名数学家。他着迷于像伽罗瓦和高斯这样的天才，梦想着能在长达数百年的时间尺度上做出贡献。“如果我提出的任何东西在我有生之年就被用上了，”他开玩笑说，“那说明它还不够长远，不够抽象。” 然而，命运的转折点来得有些突然。高中毕业后，他写了一本化学教科书，但朋友告诉他：“没人会出版这个的。你要么自己想办法，要么就建个网站吧。”面对自费出版的高昂成本和繁杂工作，他果断选择了后者。 “于是，我猜我得学学怎么做网站了。” 他就这样一头扎进了W3Schools的PHP教程（在场的很多老程序员都会心地笑了）。他做的第一个小东西是一个表格排序插件。当他点击列标题，表格真的按照他脑海中的设想排序时，他感到了一种前所未有的“魔法”。 “数学的奇妙在于，你深入思考一个问题，用一种晦涩的方式（我们称之为‘证明’）写下来，然后可能只有三个人会关心。但编程不一样，你同样用一种晦涩的方式（我们称之为‘程序’）写下来，可能也只有三个人会读你的代码，但所有人都能享受到它带来的好处。你脑海中的想法变成了现实，实实在在地存在于世界上。那一刻，我意识到，这才是我真正想做的事。” 对百年时间尺度的执念，瞬间被创造的即时快感所取代。他只想去“构建”（build）。辍学加入Stripe：挑战极限的“24小时奇迹” 正是这种构建的热情和惊人的天赋，让还在上大学的Greg收到了Stripe的冷启动邮件。当时，Stripe还只是一个三個人的“庞大”公司。通过哈佛和MIT的朋友圈推荐，Stripe找到了这位在两所顶级学府都留下过足迹的“双料红人”。 Greg回忆起与Stripe创始人Patrick Collison的第一次见面，那是个风雨交加的夜晚，两人一见如故，彻夜畅聊代码。他立刻感觉到：“这就是我一直想合作的那种人。”于是，他毅然从MIT辍学，飞往了加州。早期的Stripe远比外界想象的要艰难。一个流传甚广的“都市传说”是Stripe工程师会帮客户上门安装代码，虽然这只发生过寥寥几次，但它背后“客户至上”的精神是真实的。Greg分享了一个更惊心动魄的故事：当时，Stripe急需从原有的支付后端迁移到富国银行（Wells Fargo），但银行方面表示，技术对接通常需要9个月。对于一家初创公司来说，9个月简直是天方夜谭。 “我们不能等，”Greg说。于是，他们把这次技术对接当成了一次大学里的“期末冲刺”。 24小时内，整个团队像解题一样分工合作：Greg负责实现所有功能，John Collison从上到下写测试脚本，Daryl从下往上验证。第二天早上，他们与银行的认证人员通话，第一次测试失败了。对方习惯性地说：“好的，那我们下周再聊。” Patrick则像个出色的“拖延大师”，在电话里不停地找话题，为Greg争取宝贵的调试时间。就在那通电话里，他们调试了5轮代码。虽然最终还是失败了，但对方被他们的执着打动，破例在两小时后给了他们第二次机会。这一次，他们成功了。 “就因为我们没有接受那些所谓的‘常规流程’，”Greg总结道，“我们在短短几个小时内，完成了正常情况下需要六周才能完成的开发工作。” 他认为，这种从第一性原理出发，敢于挑战那些不再适用于当今环境的“无形约束”，是创业和创新的关键所在。点燃AGI之火：从图灵的“孩童机器”到深度学习的春天早在2008年，Greg就读了艾伦·图灵1950年的那篇奠基之作《计算机器与智能》。最让他震撼的，不是“图灵测试”本身，而是图灵提出的一个超前构想： “你永远无法为智能写下所有的规则。但如果你能创造一个像人类孩童一样学习的‘孩童机器’（child machine），然后通过奖励和惩罚来教育它，它最终就能通过测试。” 这个想法深深地吸引了他：一台能够自己理解和解决问题，甚至超越人类程序员理解能力的机器。这感觉才是解决人类重大问题的根本之道。然而，当他兴冲冲地去找一位NLP教授时，对方却递给他一堆“语法分析树”（parse trees），这让他感到理想与现实的巨大差距，一度陷入了“绝望之谷”。直到深度学习的浪潮袭来。 2012年的AlexNet在ImageNet竞赛中一鸣惊人，一个相对通用的学习机器，用卷积神经网络，轻松击败了计算机视觉领域几十年的研究成果。很快，这个“魔法”开始在NLP、机器翻译等各个领域复现，打破了不同学科间的壁垒。 “那一刻，我意识到，这就是图灵所说的那种技术。”Greg说。他发现，神经网络的核心思想可以追溯到1943年，而那些在“AI寒冬”中被嘲笑为“只会堆砌更大计算机”的研究者，恰恰做对了事情。“是的，”他笑着说，“这正是我们所需要做的。” 所有因素都已具备，现在，只需要去构建。构建OpenAI：当工程师文化遇上学术研究在2022年，Greg曾写道：“现在是成为ML工程师的时代。”他坚信，优秀的工程师与优秀的研究员对未来的贡献同等重要。这种“研究与工程并重”的理念，从一开始就根植于OpenAI的文化中。但他坦言，融合两种文化并不容易。工程师习惯于清晰的接口（interface），认为只要接口不变，背后的实现可以随意更改。研究员则不然，因为模型性能的细微下降可能来自系统任何地方的bug，他们必须理解整个系统，接口的抽象在他们看来并不可靠。这种思维差异曾导致项目停滞不前。最终，他们摸索出了一种合作模式，其核心是Greg所强调的“技术谦逊”（Technical Humility）。 “对于加入OpenAI的工程师，我总会说，你带着宝贵的技能而来，但这和传统的Web创业公司是完全不同的环境。最重要的事情是，带着谦逊的心态，去倾听、去理解，直到你真正明白‘为什么’。在那之后，你再去做出改变，重构架构，改进抽象。” 这种互相尊重、深度融合的伙伴关系，最终成为了OpenAI强大创新能力的基础。发布幕后：从“心流编程”到AGI时代的开发新范式 1. 疯狂的发布日无论是ChatGPT还是最新的GPT-4o，OpenAI的每次发布都像一场风暴。ChatGPT在5天内吸引了100万用户，而GPT-4o的图片生成功能更是在5天内吸引了1亿用户。 “我们原本以为ChatGPT需要等到GPT-4发布才能火起来，”Greg透露，“结果我们大大低估了用户们的热情。” 面对远超预期的流量，他们做出了一个艰难但必要的决定：从研究团队那里临时抽调大量算力来支持线上服务。“这相当于抵押了未来，”他说，“但如果你能让用户体验到魔法，这一切都是值得的。” 2. “心流编程”与未来在GPT-4的发布会上，Greg现场演示了让模型根据一张手绘草图生成网站代码，这个“心流编程”（vibe coding）的时刻让世界第一次直观感受到了AI编程的魔力。（一个有趣的彩蛋是：那张草图是他妻子画的，因为他自己的字迹连AI都识别不了。）他认为，“心流编程”只是一个开始，它代表着一种赋权。未来，AI编程将朝着更强大的“智能体”（Agentic）方向发展。我们不再只是与AI进行交互式编程，而是可以部署成千上万个AI智能体，像管理同事一样管理它们，让它们在云端自主完成任务。 3. AI如何重塑我们的编码方式？在Greg看来，Codex等AI编程工具正在深刻地改变我们组织代码的方式。过去，我们的代码库是为人类的优势而设计的；未来，我们需要为模型的优势而设计。这意味着：更小的模块化：将代码拆分成更小、功能单一的模块。完善的测试：编写可以被快速、频繁运行的测试用例。清晰的文档：让模型能够理解每个模块的作用。 “这听起来就像是优秀的软件工程实践，对吧？”他说，“只是过去我们因为人力成本高而常常“偷懒”。现在，模型会比你多运行成千上万次测试，所以这些‘好习惯’变得前所未有的重要。” 从某种意义上说，我们应该像为初级开发者构建代码库一样，来最大化AI的效能。 4. 迎接AGI时代的开发新范式 NVIDIA创始人黄仁勋（Jensen Huang）也通过视频提出了一个问题：当AGI时代来临，开发者的工作流会发生怎样的变化？...

ChatGPT 负责人首次揭秘：从黑客松到 10 亿用户，你不知道的疯狂故事和 GPT-5 内幕

本文整理自对ChatGPT 的负责人 Nick Turley 的采访，带你 5 分钟了解这篇访谈的精华。 ChatGPT负责人首次揭秘：那个差点被命名为“与GPT-3.5聊天”的黑客松项目，如何改变了世界？你可能每天都在用它，但你绝对想不到，那个如今拥有近10亿用户、改变了无数人工作和生活的ChatGPT，诞生之初竟如此“草率”和“偶然”。它差点就被命名为一个极客味十足的“与GPT-3.5聊天”（Chat with GPT-3.5），它的付费模式源于一次“顶不住了”的服务器崩溃，它的20美元定价来自一份匆忙发在Discord上的问卷…… 最近，一直“藏在幕后”的ChatGPT负责人 Nick Turley 接受了他的首次深度播客访谈，毫无保留地分享了这些令人瞠目结舌的幕后故事。他曾是Dropbox和Instacart的产品负责人，如今，他掌管着可能是人类历史上最举足轻重的产品。让我们坐好，听听这位“火箭船”上的关键人物，亲口讲述这一切是怎么发生的。一个没人看好的“黑客松项目”，10天冲刺上线故事的起点，并不是什么宏大的战略规划。在GPT-4训练完成之际，OpenAI内部已经有了一个面向开发者的API产品，但团队发现了一个瓶颈：每次模型更新，都会“搞砸”开发者的应用，这让快速迭代和学习变得异常困难。团队迫切需要一个能直接与海量用户互动、收集真实反馈的渠道。于是，OpenAI搞了一场内部“黑客松”（Hackathon），主题是打造一个“超级助理”（Super Assistant）。大家的热情很高，各种想法冒了出来，比如能帮你开会的“会议机器人”，还有超前时代的“编程工具”。但一个有趣的问题出现了：无论团队测试哪个具体应用，用户总想用它来干点别的。“这项技术太通用了，” Nick 回忆道，“你给他们一个锤子，他们却想用它来拧螺丝、当尺子、甚至开瓶盖。” 几个月的原型设计后，团队做出了一个关键决定：放弃具体场景，干脆就做一个开放式的聊天界面，看看大家到底想用它来干什么。这个决定一下，节奏快得惊人。 “我当时就说，‘10天，10天后我们就得把这玩意儿发出去！’” Nick说。这个最初的团队，简直就是一支“杂牌军”：有来自超算团队、以前写过iOS应用的工程师；有来自研究团队、业余写后端代码的研究员。他们用一个名为SA Server（Super Assistant Server的缩写）的黑客松代码库，在短短10天内，把产品拼凑了出来。他们给产品起的名字也极其随意，一开始就打算叫“与GPT-3.5聊天”，因为“我们真没觉得它会成为一个成功的产品，它就是一个研究演示品。” 直到上线前一晚，才改成了稍微好一点点的“ChatGPT”。当时的计划是，赶在圣诞假期前上线，收集点数据，等假期回来就把这个“临时项目”关掉。然后，Sam Altman发了一条推文。剩下的，就是历史了。 “最大化加速了吗？” — OpenAI的节奏与心法 ChatGPT的意外爆红，让Nick和团队陷入了从“手忙脚乱”到“难以置信”的循环。但他们很快意识到，速度和执行力，恰恰是他们能抓住这次机会的关键。 Nick将一种理念深深植入了团队文化中，那就是设定团队的“静息心率”（resting heartbeat）——一种快速迭代、持续向前的内在节奏。在OpenAI内部，有一个流传甚广的梗，它源自Nick经常问的一个问题： “Is it maximally accelerated?” (这个项目被最大化加速了吗？) 这个问题甚至变成了一个粉色的、用Comic Sans字体制作的Slack表情包。每当有人想推动某个项目，或者质疑某个延迟时，就会甩出这个表情。 “我就是想直接跳到重点：‘为什么我们现在不能做？为什么明天不行？’” Nick解释说。这并不是要无脑求快，而是一个强大的思维工具，它能迫使团队分清什么是真正的阻碍，什么是可以绕过的流程。 “在AI领域，你只有把产品发布出去，才能真正理解它的可能性和用户的需求。” Nick强调，“很多东西是无法预先推演的。你必须先开枪，再瞄准。” 当然，这种“最大化加速”的理念并非适用于所有事。在安全问题上，OpenAI采用了完全相反的、极其严谨和审慎的流程。对于像GPT-5这样的前沿模型，团队会投入大量时间进行“红队演练”、外部评估，确保在推向世界前，已经做好了充足的准备。快与慢的辩证法，构成了OpenAI独特的执行力。在产品开发上追求极致的速度，在安全伦理上保持极致的审慎。那些改变历史的“偶然”决定在高速狂奔中，很多当初看似不起眼的临时决策，最终都产生了改变行业格局的影响。 1. 那个20美元的定价，来自一份谷歌问卷 ChatGPT上线初期，由于用户量暴增，服务器频繁宕机，主页上挂着一个AI生成的“道歉诗”。团队急需一种方式来“劝退”一部分需求，同时为真正有需要的用户提供稳定服务。于是，“付费版”的想法诞生了。但这玩意儿该怎么定价？ Nick回忆，当时他急得像热锅上的蚂蚁，给一位定价专家打电话求助，但根本没时间消化那些复杂的建议。情急之下，他做了一件非常“野路子”的事：他用谷歌表单创建了一份问卷，里面只有4个问题——完全照搬了当时网上流传的“Van Westendorp定价法”，然后把链接甩到了公司的Discord社群里。第二天早上，一份科技媒体的文章赫然写着：“揭秘！ChatGPT团队用四个天才问题为产品定价！” Nick看到后哭笑不得：“要是他们知道真相就好了。”...

介绍一下 GPT-5 在编码上的能力

OpenAI 于 2025年 8 月 8 日发布最新、最强大的、转为开发者设计的 AI 模型——GPT-5。该模型在编码和智能体任务方面树立了新的行业标杆，提供了前所未有的性能、可控性和协作能力。主要内容发布新一代模型 GPT-5：GPT-5 是一个专为编码和智能体任务优化的顶尖模型，现已通过 API 平台发布。卓越的编码与智能体能力：该模型在各项关键基准测试中表现出色，能够高效处理复杂的编码任务，如修复 bug、代码编辑和问答。同时，它在执行需要连续调用多个工具的长期智能体任务方面也达到了业界领先水平。增强的开发者控制：API 引入了多项新功能，包括用于控制响应速度与质量的 reasoning_effort 参数、调节内容详略的 verbosity 参数，以及支持更灵活工具调用的 custom tools。多样的模型选择：为满足不同场景下对性能、成本和延迟的需求，GPT-5 提供了三种不同规模的版本：gpt-5、gpt-5-mini 和 gpt-5-nano。更高的可靠性与安全性：GPT-5 在事实准确性上相比前代模型有显著提升，事实性错误减少了约 80%，使其在处理关键任务时更加值得信赖。关键细节性能表现编码能力：在 SWE-bench Verified 基准测试中得分 74.9%，超越了 o3 的 69.1%。在 Aider polyglot 代码编辑测试中得分 88%，错误率比 o3 降低了三分之一。在前端开发测试中，70% 的情况下优于 o3。智能体任务：在 τ2-bench telecom 工具调用基准测试中得分高达 96.7%，远超其他模型。能够可靠地连续或并行调用数十个工具来完成复杂任务。长上下文处理：在 OpenAI-MRCR 测试中全面超越前代模型，尤其在长输入下优势明显。所有 GPT-5 模型支持最高 272,000 输入 token 和 128,000 输出 token，总上下文长度达 400,000 token。事实准确性：在 LongFact 和 FactScore 基准测试中，事实性错误比 o3 减少了约 80%。新增 API 功能 reasoning_effort 参数：新增 minimal 选项，可在牺牲部分推理深度的情况下实现更快的响应。 verbosity 参数：提供 low、medium、high 三个级别，用于控制模型回答的详细程度。 custom tools (自定义工具)：允许模型使用纯文本（plaintext）而非 JSON 格式调用工具，并可通过正则表达式或上下文无关文法进行约束，简化了复杂输入的处理。模型版本与可用性 API 模型： gpt-5：$1....

介绍一下 OpenAI 发布的 GPT-5

OpenAI 于 2025年 8 月 8 日发布最新、最强大的 AI 模型——GPT-5。该模型在智能水平上实现了巨大飞跃，旨在提供更准确、更可靠、更实用的辅助，并面向所有用户推出。主要内容革命性的智能飞跃：GPT-5 是一个在性能上远超以往所有模型的 AI 系统，在编码、数学、写作、健康和视觉感知等多个领域树立了新的标杆。创新的统一系统架构：GPT-5 内部集成了一个能快速响应大多数问题的标准模型和一个用于解决复杂难题的深度推理模型（GPT-5 thinking）。系统通过一个智能路由器自动判断并选择最合适的模型，实现了效率与深度的统一。实用性和可靠性显著提升：新模型在减少“幻觉”（提供不实信息）、遵循指令和减少“谄媚”（过度附和）方面取得了重大进展，使其在写作、编码和健康咨询等核心应用场景中变得更加有用和可靠。分层级的用户体验：所有用户均可使用 GPT-5。Plus 和 Pro 等付费用户将获得更高的使用额度和更强的版本，其中 GPT-5 pro 专为处理最复杂的任务而设计，具备更强的推理能力。安全与交互的全新范式：GPT-5 引入了名为“安全完成”（safe completions）的全新安全训练方法，使其在保证安全的前提下尽可能提供有帮助的回答，而非简单地拒绝。同时，模型交互体验更自然，更像与一位博学的伙伴对话。关键细节系统架构与运行机制智能路由：GPT-5 的核心是一个实时路由器，它能根据对话类型、复杂度和用户意图（如用户输入“think hard about this”）来决定是快速回答还是启用深度推理模式。 GPT-5 pro：这是一个专为高难度任务设计的增强版，通过更长时间的并行计算，提供最全面、最准确的答案。在专家评测中，GPT-5 pro 在 67.8% 的情况下优于标准的 GPT-5 thinking 模式。性能与基准测试全面领先：GPT-5 在多项学术基准测试中创造了新的纪录，例如在 AIME 2025 数学竞赛中得分 94.6%，在 SWE-bench Verified 真实世界编码测试中得分 74.9%，在 MMMU 多模态理解测试中得分 84.2%。更高效率：GPT-5 (with thinking) 在实现更优性能的同时，所需的计算资源（输出 tokens）比 OpenAI o3 少 50-80%。核心应用领域提升编码：能够仅通过单个提示生成美观且响应迅速的网站、应用和游戏，对设计美学（如间距、排版）有更好的理解。写作：能更好地处理具有结构模糊性的写作任务，如创作无韵诗或自由诗，使文本兼具形式感与表达清晰度。健康：在 HealthBench 健康场景评测中得分显著提高，表现得更像一个“积极的思考伙伴”，能主动提出潜在问题，提供更安全、更具地理适应性的建议。可靠性与安全性的量化改进...