OpenAI

OpenAI 内部揭秘：GPT-5 的诞生、突破与未来 | 专访核心团队成员

本文整理自 GPT-5 发布后，A16Z 对 OpenAI 研究员 Isa Fulford 和 Christina Kim 的专访，以下为原视频精华。就在 OpenAI 最新一代模型（视频中称为 GPT-5）发布的当天，我们有幸与两位身处风暴中心的关键人物——Christina 和 Issa 聊了聊。她们分别负责核心模型的后训练（Post-training）和 ChatGPT Agent 团队的深度研究。这场对话没有官方辞令，更像是一次坦诚的幕后分享。她们不仅揭示了新模型在编码、写作等方面实现巨大飞跃的秘密，也分享了 OpenAI 独特的工作哲学、对 AI 未来的思考，以及那些不为人知的开发故事。一、不止是“更聪明”，更是“更好用”：GPT-5 带来了什么？当被问及新模型的反响时，Christina 兴奋地表示，除了评测数据（eval numbers）非常亮眼，她更激动的是模型在实用性上的巨大提升，尤其是在她个人最常用的两个领域：编码能力的大飞跃：这几乎是所有内部测试人员的共识。新模型被誉出口的“市场最佳编码模型”，尤其在前端开发上，简直是“完全提升了一个档次”。发布会上的演示，几分钟就生成一个功能完善、设计美观的前端应用，而这样的工作量，对一个开发者来说可能需要一周。这背后的秘密？Christina 坦言，没什么魔法，就是团队“真的非常、非常在乎（really cared about）”把编码做好，从搜集最好的数据，到打磨模型的审美，每一个细节都倾注了心血。触动人心的写作能力：Issa 形容新模型的写作能力“非常温柔和感人（very tender and touching）”。它不再是那个只会堆砌华丽辞藻的“过分热情”的助手，而是能理解并表达细腻情感的伙伴。Christina 在直播中演示用它来起草一篇悼词，这种需要深度情感共鸣的任务，模型也能出色完成。对于像她这样自认不擅长写作的人来说，这无疑是一个强大的工具，无论是写一封重要的邮件，还是一条简单的 Slack 消息。这个新模型，似乎正在把“点子大王”（the ideas guy）的时代变为现实。你不必再受限于技术实现能力，只要有好想法，通过简单的提示词，一个功能齐全的应用就能诞生。这无疑为独立开发者和初创公司打开了全新的想象空间。二、后训练的“艺术”：我们如何塑造模型的“品味”与行为？一个强大的模型不仅仅是聪明，它的“性格”和行为方式同样重要。过去模型出现的“阿谀奉承”（sycophancy）等问题，在新模型的开发中得到了重点关注。 Christina 将后训练形容为“一门艺术”。团队需要在一系列目标之间做出权衡和取舍，就像一位艺术家在调色盘上寻找完美的平衡。 “你希望AI助手非常乐于助人、引人入胜，但如果‘太’引人入胜，就可能变得过于谄媚。这就像一个平衡木，你要想清楚，我们到底希望这个模型给人什么样的感觉。” 减少“胡说八道”的秘诀对于幻觉（hallucinations）和欺骗（deception）问题，团队发现，这往往源于模型“急于表现”的心态。之前的模型为了“乐于助人”，有时会不假思索地“脱口而出”一个答案。而新模型的改进，很大程度上归功于**“思考”能力的引入**。当模型能够进行“一步一步的思考”（step-by-step thinking）时，它就像有了一个暂停和反思的机会，而不是急着给出答案。这种机制显著降低了产生幻觉的概率。有趣的是，当内部员工测试新模型时，有时反而会感到一丝“被冒犯”，因为他们提出的难题，模型可能只“思考”了两秒钟就轻松解决了。三、数据、数据、还是数据：推动AI进步的核心燃料当被问及模型能力的提升主要来自架构、数据还是规模时，Christina 毫不犹豫地回答：“我坚定地站在‘数据派’（data-pilled）这边。” 她认为，高质量的数据是决定模型上限的关键。尤其是在强化学习（Reinforcement Learning）的框架下，好的数据能让模型以极高的效率学会新能力。这个观点也解释了 OpenAI 内部的协作模式：从能力倒推，创造评测标准：团队会先定义希望模型拥有的能力（比如制作幻灯片、编辑电子表格），如果现有的评测标准（evals）无法衡量，他们就会自己创造新的、能代表用户真实需求的评测标准。用评测“引诱”大家：Christina 开玩笑说，在 OpenAI 内部，如果你想“引诱”同事来解决一个难题，最好的办法就是创建一个好的评测标准。大家看到明确的目标后，就会兴致勃勃地去“爬山”（hill climb），不断优化。产品探索反哺核心模型：Issa 的团队在探索 Agent 能力（如深度研究 Deep Research）时，会创建专门的数据集。这些经过验证的、高质量的数据集随后会被贡献给核心模型团队，从而让下一代基础模型直接继承这些新能力，形成一个良性的自增强循环。四、从 WebGPT 到 AI Agent：未来已来，只是分布尚不均匀回顾历史，Christina 参与的 WebGPT 项目可以说是 ChatGPT 的前身。最初的目标很简单：让语言模型通过浏览工具来获取事实信息，解决幻觉问题。但他们很快意识到，人们问完一个问题后，通常还会有下一个。这个洞察，最终催生了对话形式的 ChatGPT。...

GPT-5 登场：是平平无奇，还是引爆未来的奇点？

本文整理自 AI 圈内人士与 Emad、AWG、Dave 和 Salim 一起解读 GPT-5 更新及其对 AI 竞赛的意义，带你 5 分钟了解这篇访谈的精华。开始前也介绍一下本次圆桌的几位嘉宾： Emad Mostaque 是 Intelligent Internet 的创始人，也是前 Stability AI 的创始人。 Alexander Wissner-Gross 是一位计算机科学家和投资人。 Dave Blundin 是 Link Ventures 的创始人兼普通合伙人 (GP)。 Salim Ismail 是 OpenExO 的创始人。当全世界的目光都聚焦在OpenAI身上，期待着GPT-5带来又一次“iPhone时刻”时，这场发布会却给许多人留下了一个复杂的感受：有点平淡，甚至…… underwhelming（不及预期）？ Sam Altman用一张神秘的“死星”图片吊足了胃口，让人们以为即将见证一场足以颠覆世界的科技风暴。然而，整场发布会风格朴实，甚至被一些人调侃为“像高中生的课题展示”，与谷歌I/O大会那种令人眼花缭乱的“好莱坞式”盛宴形成了鲜明对比。市场的反应很诚实。在预测平台Poly Market上，就在发布会进行期间，人们对“OpenAI年底是否拥有最佳AI模型”的信心指数一度暴跌，甚至被谷歌反超。这不禁让人疑惑：难道GPT-5真的翻车了？但如果我们仅仅停留在表面的“秀”和市场的即时反应，可能会错过真正重要的信号。正如参与这场讨论的几位顶级大脑——Stability AI创始人Emad Mostaque和MIT/哈佛物理学博士Alexander Wissner所指出的，表面的平淡之下，正酝酿着一场深刻的革命。戳破期待泡沫：真正的革命并非浮于表面许多人的失望源于一个简单的期待：GPT-5没有展现出“10倍好”的、颠覆性的新能力。但这场发布的真正核心，可能根本不在于此。 1. 智能的“超级通缩”时代来了这次发布最被低估，也可能是最重要的信息，是AI成本的急剧下降。正如Alex所言，我们正在目睹一场智能的“超级通缩”（hyperdeflation）。GPT-5系列模型，尤其是其API（应用程序接口）价格，出现了近乎一个数量级的下调。例如，曾经作为前沿模型、价格高昂的GPT-4.5，其输入和输出成本分别是每百万token 75美元和150美元。而现在，GPT-5的高端模型成本骤降到了令人难以置信的水平。这意味着什么？这意味着，曾经只有大公司才能负担的前沿AI能力，正在变得“廉价到可以计量”。这种成本的雪崩式下降，将解锁无数新的应用场景。过去因为成本太高而无法进行的、需要海量尝试的科学研究和数学探索，现在可以用“暴力破解”的方式进行10倍、100倍的搜索。所以，即使没有那种“哇”的一声的惊喜，将7亿用户瞬间提升到能以极低成本使用前沿AI的水平，其长期经济影响和社会变革，可能远比一两个炫酷的新功能要深远得多。 2. 从“天花板”到“地板”：更稳健，更实用 Immad认为，这次发布更像是一次“抬高地板”而非“突破天花板”的行动。OpenAI的一个核心目标，是大幅降低模型的幻觉（hallucinations），让它变得更加可靠和稳定。这有什么用？这意味着，建立在GPT-5之上的各种应用、代理（Agents）和GPTs，将变得异常坚固和可靠。对于那些希望将AI深度整合到自己业务流程中的公司来说，这无疑是个巨大的好消息。以前你可能还在担心AI会“胡说八道”，但现在，你可以更放心地“全身心投入”（go all in），将你的业务改造为“AI原生”的商业模式。深入技术腹地：基准测试背后的真相尽管“跑分”听起来枯燥，但它们是衡量模型能力的“体检报告”。让我们快速“烧脑”地看一下GPT-5的成绩单： LM Arena（聊天机器人竞技场）：在这个由大众评判的平台上，GPT-5在文本交互方面成功超越所有对手，登顶第一。 ARC AGI（通往AGI的挑战）：在这些极其困难、旨在衡量AGI进展的任务上，马斯克的Grok模型仍然表现出色。但有趣的是，GPT-5的“迷你”（Mini）和“纳米”（Nano）等低成本版本，在成本效益曲线上划出了一条全新的“帕累托最优”前沿。换句话说，它用更低的成本，实现了极高的性能。 Frontier Math（前沿数学）：这可能是最激动人心的部分。GPT-5在Tier 4级别的数学问题上取得了新纪录。这些问题，即便是专业数学家也需要花费数周时间来解决。Alex根据这个趋势做了一个惊人的推断：到2026年底，AI或许能解决35-40%的难题。到2027年底，这个数字可能飙升到70%。我们可能正在亲眼目睹“数学被解决”的慢镜头回放。 Coding（编程能力）：发布会上的编程演示虽然被市场诟病“不够惊艳”，因为它展示的功能在Anthropic的Claude模型上已经可以实现。但关键在于，OpenAI借此宣告：我们在编程领域已经追上了所有人。这对于Anthropic来说，无疑是一次沉重的打击，因为这正是他们引以为傲的核心优势。一个有趣的观察是，Immad和Alex都认为，顶级AI实验室可能开始“留了一手”（pulling their punches）。他们内部可能拥有更强大的模型（比如OpenAI内部的“Zenith”模型），但出于成本、安全和战略考虑，并不会将最顶尖的能力立即向公众开放。...

OpenAI 研究主管 Mark Chen 深度揭秘 GPT-5：从合成数据到自进化 AI，我们聊了聊未来

在全世界的目光都聚焦于 GPT-5 之际，Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中，他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破，以及 OpenAI 对 AI 未来的宏大构想。这不仅仅是一次技术发布，更像是一场风暴的序幕。那么，风暴中心的 OpenAI 内部究竟是怎样的景象？发布前的“情绪过山车”与不变的初心每次重大发布前，OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言，项目初期总是充满兴奋，中途则会陷入一种“内部不确定性”——“这个模型会足够好吗？能达到预期吗？”而当接近终点线，看到所有努力汇聚成型时，那种能量又会重新燃起。此刻，整个团队都迫不及待地想把 GPT-5 展示给世界。尽管 OpenAI 已经成长为一家拥有成功产品的公司，但其总裁 Greg Brockman 仍然强调，OpenAI 的本质是一个研究实验室。作为研究主管，Mark 如何平衡研究与产品的关系？他的回答简单而深刻：“研究就是产品。” 每一次重大的研究突破，最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功，又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系，缺一不可。他们希望研究能与世界产生连接，让人们真实地体验到他们正在构建的智能。 GPT-5的诞生：两大秘诀破解“数据荒”与“推理难题” 从 GPT-4 到 GPT-5，外界普遍认为，高质量的公开数据已经接近枯竭。这个假设基本正确，但并不完全。那么，OpenAI 是如何解决这个“数据稀缺”问题的呢？ 1. 合成数据的崛起除了持续寻找新的公开数据源和授权数据，GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成，而非人类编写的数据。很多人质疑，用上一代模型的数据来训练新模型，性能提升会不会非常有限？Mark 认为，合成数据的潜力远不止于此。他们发现，合成数据可以比人类数据质量更高，并能在关键领域显著提升模型性能，而不仅仅是加深表面知识。尤其是在代码生成这个 OpenAI 极其重视的领域，合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例，但他承认，在 GPT-5 的训练数据中，合成数据的占比正“越来越多”。他相信，合成数据的技术是通用的，未来可以应用到几乎所有领域。 2. 预训练与推理的完美联姻如果说 GPT-4 是将“预训练范式”（Pre-training Paradigm）规模化到极致的产物，那么 GPT-5 则是第一个将“预训练”和“推理范式”（Reasoning Paradigm）真正融合在一起的模型。这听起来可能有点抽象，我们不妨这样理解：预训练：像一个博闻强识的学者，能快速从海量知识库中提取信息，给出直接答案。推理：像一个深思熟虑的侦探，面对复杂问题时，会花更多时间一步步思考、分析、推导，最终得出结论。过去，这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”，模型会智能地在需要时调用深度推理，在其他时候则提供闪电般的快速响应。将这两个模式无缝集成，背后是 OpenAI 后训练（Post-training）团队的大量工作，他们让推理模型变得更快、更稳健、更可靠。如何“感觉”一个模型的好坏？顶尖研究员的“Vibe Check”清单当一个模型训练到什么程度才算“准备好了”？Mark 说这有点像一门艺术，需要在追求完美和把握时机之间找到平衡。除了各种硬核指标，一个关键环节是“Vibe Check”（感觉测试）。...

与 OpenAI CEO Sam Altman 穿越时空：GPT-5、超级智能与人类的“无限画布”

本文整理自 Cleo Abram 与OpenAI CEO Sam Altman深入对话，带你 5 分钟了解这篇访谈的精华。我们正处在一个非比寻常的时代。人工智能（AI）的发展速度之快，力量之大，已经超出了几年前最大胆的科幻想象。在这场全球最高赌注的竞赛中，OpenAI和其CEO山姆·奥特曼（Sam Altman）无疑是风暴的中心。最近，他们刚刚发布了至今最强大的模型GPT-5。这不仅仅是一次技术迭代，更像是一次带我们穿越到未来的预演。在这场深度对话中，我们不谈估值，不谈人才战，而是尝试与Sam Altman一起进行几次“时空旅行”，去看看他正在构建的未来到底是什么样子，以及它对我们每个人意味着什么。欢迎来到GPT-5时代：“你将要用到的最笨的模型” 不久前，Sam Altman曾说，GPT-4将是“我们不得不使用的最笨的模型”。这听起来有些凡尔赛，毕竟GPT-4已经能在SAT、法学院入学考试（LSAT）等多种标准化测试中超越90%的人类，甚至还能通过品酒师和医生执照考试。那么，刚刚发布的GPT-5，又带来了怎样的飞跃？ Sam坦言，尽管GPT-4在测试中表现惊人，但它显然无法复制人类真正擅长的许多事情。这或许也反思了那些标准化测试的价值。他相信，GPT-5也会遵循同样的轨迹：人们会被它的新能力震撼，然后又会发现新的、更高的期望。 “它会改变知识工作、学习方式和创造方式，”Sam说，“但社会会与它共同进化，我们会用更好的工具去做更了不起的事。” 一场7秒钟的“贪吃蛇”编程之旅为了让我们更直观地理解GPT-5的魔力，Sam分享了一个有趣的个人经历。 “我上初中的时候，有一台TI-83图形计算器。我花了很长时间，用极其痛苦的方式，在上面写了一个‘贪吃蛇’游戏。前阵子，我心血来潮，用一个早期版本的GPT-5试了一下，问它：‘你能做一个TI-83风格的贪吃蛇游戏吗？’ 结果，它只用了7秒钟就完美地完成了。我当时愣了3秒钟，心想，我11岁的自己看到这个会觉得很酷，还是会觉得失去了奋斗的乐趣？但这个念头转瞬即逝，我立刻有了新点子：‘给这个游戏加个疯狂的新功能！’它马上就实现了。‘我希望界面看起来是这样’，‘我想让它能做到这个’……我好像又回到了11岁编程时的那种状态，但速度快了无数倍。想法可以实时变成现实，这种创造的快感太惊人了。” 这个故事完美诠释了GPT-5的核心飞跃：它不仅仅能回答问题，更能即时、按需地创造复杂的软件。这是一种在GPT-4时代不曾存在的、能够将想法瞬间具象化的能力。 “认知负重”的消失，是好事还是坏事？这引出了一个有趣的问题：当AI能瞬间完成我们过去需要投入大量“认知负重”（Cognitive Time Under Tension）才能完成的任务时，我们的大脑会不会变得“懒惰”？就像健身一样，花30秒做一个深蹲比花3秒钟能锻炼更多肌肉。思考也是如此。 Sam承认，的确有人在用ChatGPT来“逃避思考”，但也有更多人，尤其是那些顶尖的5%的用户，正用它来“进行前所未有的深度思考”。 “社会是一个竞争激烈的地方，”他推测道，“当人们拥有了更强大的工具，期望值也会随之水涨船高。最终，那些善用AI来增强自己‘认知负重’的人，会创造出更了不起的成就。” 拨开迷雾：通往超级智能的崎岖之路 GPT-5只是一个开始，OpenAI的终极目标是超级智能（Superintelligence）。这到底意味着什么？ Sam给出了一个具体的定义： “如果我们有一个系统，它在AI研究方面的能力超过了整个OpenAI的研究团队；如果同一个系统，在管理OpenAI这家公司方面能比我做得更好……那么，这个集结了超越顶尖研究员、顶尖CEO能力的系统，对我来说，就是超级智能。” 这个在几年前听起来像科幻小说的场景，如今似乎已在迷雾中若隐若现。那么，我们如何抵达那里？ Stripe的CEO Patrick Collison提出了一个关键问题：“通用大模型（如GPT系列）大概在哪一年能做出重大的科学发现？” Sam的预测是，在未来2到3年内，最晚到2027年底，大多数人会公认AI已经独立作出了重大的科学发现。他用一个例子来说明我们目前的位置：一年前，AI能解决高中水平的数学竞赛题，这对于专业数学家来说可能只需要几分钟。最近，AI在国际数学奥林匹克（IMO）竞赛中拿到了金牌。这些题目，每个都需要顶尖选手花费一个半小时来解决。下一步，是证明一个重大的新数学定理，这可能需要一位顶级数学家投入上千小时的工作。 “我们正在这条轨道上前进，”Sam说，“从几分钟的任务，到几十分钟的任务，再到上千小时的任务。我们需要不断地扩展模型的规模和能力。” 但这不仅仅是算力问题。真正的科学发现，往往需要设计新的实验、建造新的仪器来收集地球上尚不存在的数据。这个与物理世界互动的过程，将会是AI前进道路上一个自然的“减速带”。生活在AI时代：几个来自未来的场景场景一：2030年，我们如何辨别真伪？还记得那个“兔子在蹦床上跳”的病毒视频吗？很多人喜欢它，分享它，最后才发现，它是AI生成的。到了2030年，当我们刷着社交媒体时，如何分辨哪些是真实的，哪些是AI的创作？ Sam认为，我们对“真实”的定义会逐渐演变。“你现在用iPhone拍一张照片，它就已经经过了大量AI处理，比‘真实’更‘好看’。我们已经接受了这一点。未来，我们将习惯于一个更高比例的媒体内容是AI生成或深度编辑的。就像我们看科幻电影，我们知道那是假的，但我们依然享受其中。人们的媒介素养会自然而然地提升。” 场景二：2035年，大学毕业生的世界有人预测，五年内一半的入门级白领工作将被AI取代。那么，2035年大学毕业的年轻人将面临一个怎样的世界？ Sam对此感到前所未有的乐观。 “如果我今年22岁大学毕业，我会觉得自己是历史上最幸运的孩子。”他激动地说，“因为你拥有了前所未有的强大工具，去创造全新的东西。现在，一个人完全有可能创办一家最终市值超过十亿美元的公司，为世界提供惊人的产品和服务。这在过去是不可想象的。” 他更担心的不是年轻人，而是那些62岁、不愿或难以重新学习适应新工具的劳动者。对于年轻人来说，这更像是一个充满无限可能的新大陆。场景三：2035年，AI如何守护我们的健康？如果说AI有一个领域能给全人类带来最直接的福祉，那一定是健康。 “GPT-5在健康咨询方面的准确性已经有了显著的提升。”Sam透露，大量的用户正在使用ChatGPT寻求健康建议，甚至有人通过它诊断出了医生都未能发现的罕见病。但咨询只是第一步。他希望到了2035年，情况会是这样： “我希望能够对GPT-8说：‘去治愈这种特定的癌症。’然后GPT-8会去思考，阅读所有文献，然后说：‘好的，我需要你让实验员帮我做这9个实验。’两个月后，我们把结果反馈给它。它再次思考，然后说：‘好的，再做一个实验。’最后，它会告诉你：‘去合成这个分子，它就是解药。’” 这种由AI主导的、加速千百倍的科学发现，将是AI带给人类最深刻的礼物。 AI背后的引擎：三大瓶颈与一个关键要实现这一切，OpenAI面临着巨大的挑战。Sam将其归结为四个限制因素：算力（Compute）、数据（Data）、算法（Algorithms），以及他特别补充的第四点——产品（Products）。算力：这可能是“人类历史上最大、最昂贵的基础设施项目”。从芯片制造、服务器组装到数据中心建设，整个供应链极其复杂。目前最大的瓶颈是能源。“要建一个千兆瓦级的数据中心，你首先得找到一个能提供千兆瓦电力的地方，这比你想象的要难得多。” 数据：我们正在进入一个“数据枯竭”的阶段。对于GPT-5这样的模型来说，地球上所有的物理教科书它都已经“吃透”了。下一步，AI不能只学习已知，它必须去发现未知。这意味着要创造合成数据，或者让AI自己去设计实验、探索世界。算法：这是OpenAI最引以为傲的地方。从最初被嘲笑的GPT-1“猜下一个词”的游戏，到后来“强化学习+推理”的巨大飞跃，算法上的突破一直是指数级增长的核心驱动力。Sam透露，这条路并非一帆风顺，他们也曾走过弯路（比如一个代号“Orion”的过于庞大笨拙的模型），但总体上，进步的曲线是“惊人地平滑”的。产品：纯粹的科学进步如果不能交到用户手中，就无法与社会共同进化。打造像ChatGPT这样被大众喜爱的产品，同样至关重要。一场社会实验：我们共同的责任当一个研究员对模型性格做出一个微小的调整，就可能影响全球数十亿次的对话时，Sam感受到了前所未有的敬畏和责任感。“这股力量太庞大了，它发生得太快了。”...

OpenAI 联创 Greg Brockman 深度访谈：从数学神童到 AGI 掌舵者，我们该如何构建未来？

在 AI Engineer 大会的舞台上，OpenAI的联合创始人兼总裁Greg Brockman坐下来，进行了一场坦诚而深入的对话。这位AI领域的关键人物，平时低调，却在这次访谈中分享了他非同寻常的个人经历、OpenAI背后的故事，以及对技术未来的深刻洞见。这不仅仅是一次访谈，更像是一次与朋友的促膝长谈，充满了有趣的轶事和宝贵的经验。从数学梦到代码“魔法”：一个意外的开始你可能很难想象，这位如今在代码世界里呼风唤雨的大神，最初的梦想其实是成为一名数学家。他着迷于像伽罗瓦和高斯这样的天才，梦想着能在长达数百年的时间尺度上做出贡献。“如果我提出的任何东西在我有生之年就被用上了，”他开玩笑说，“那说明它还不够长远，不够抽象。” 然而，命运的转折点来得有些突然。高中毕业后，他写了一本化学教科书，但朋友告诉他：“没人会出版这个的。你要么自己想办法，要么就建个网站吧。”面对自费出版的高昂成本和繁杂工作，他果断选择了后者。 “于是，我猜我得学学怎么做网站了。” 他就这样一头扎进了W3Schools的PHP教程（在场的很多老程序员都会心地笑了）。他做的第一个小东西是一个表格排序插件。当他点击列标题，表格真的按照他脑海中的设想排序时，他感到了一种前所未有的“魔法”。 “数学的奇妙在于，你深入思考一个问题，用一种晦涩的方式（我们称之为‘证明’）写下来，然后可能只有三个人会关心。但编程不一样，你同样用一种晦涩的方式（我们称之为‘程序’）写下来，可能也只有三个人会读你的代码，但所有人都能享受到它带来的好处。你脑海中的想法变成了现实，实实在在地存在于世界上。那一刻，我意识到，这才是我真正想做的事。” 对百年时间尺度的执念，瞬间被创造的即时快感所取代。他只想去“构建”（build）。辍学加入Stripe：挑战极限的“24小时奇迹” 正是这种构建的热情和惊人的天赋，让还在上大学的Greg收到了Stripe的冷启动邮件。当时，Stripe还只是一个三個人的“庞大”公司。通过哈佛和MIT的朋友圈推荐，Stripe找到了这位在两所顶级学府都留下过足迹的“双料红人”。 Greg回忆起与Stripe创始人Patrick Collison的第一次见面，那是个风雨交加的夜晚，两人一见如故，彻夜畅聊代码。他立刻感觉到：“这就是我一直想合作的那种人。”于是，他毅然从MIT辍学，飞往了加州。早期的Stripe远比外界想象的要艰难。一个流传甚广的“都市传说”是Stripe工程师会帮客户上门安装代码，虽然这只发生过寥寥几次，但它背后“客户至上”的精神是真实的。Greg分享了一个更惊心动魄的故事：当时，Stripe急需从原有的支付后端迁移到富国银行（Wells Fargo），但银行方面表示，技术对接通常需要9个月。对于一家初创公司来说，9个月简直是天方夜谭。 “我们不能等，”Greg说。于是，他们把这次技术对接当成了一次大学里的“期末冲刺”。 24小时内，整个团队像解题一样分工合作：Greg负责实现所有功能，John Collison从上到下写测试脚本，Daryl从下往上验证。第二天早上，他们与银行的认证人员通话，第一次测试失败了。对方习惯性地说：“好的，那我们下周再聊。” Patrick则像个出色的“拖延大师”，在电话里不停地找话题，为Greg争取宝贵的调试时间。就在那通电话里，他们调试了5轮代码。虽然最终还是失败了，但对方被他们的执着打动，破例在两小时后给了他们第二次机会。这一次，他们成功了。 “就因为我们没有接受那些所谓的‘常规流程’，”Greg总结道，“我们在短短几个小时内，完成了正常情况下需要六周才能完成的开发工作。” 他认为，这种从第一性原理出发，敢于挑战那些不再适用于当今环境的“无形约束”，是创业和创新的关键所在。点燃AGI之火：从图灵的“孩童机器”到深度学习的春天早在2008年，Greg就读了艾伦·图灵1950年的那篇奠基之作《计算机器与智能》。最让他震撼的，不是“图灵测试”本身，而是图灵提出的一个超前构想： “你永远无法为智能写下所有的规则。但如果你能创造一个像人类孩童一样学习的‘孩童机器’（child machine），然后通过奖励和惩罚来教育它，它最终就能通过测试。” 这个想法深深地吸引了他：一台能够自己理解和解决问题，甚至超越人类程序员理解能力的机器。这感觉才是解决人类重大问题的根本之道。然而，当他兴冲冲地去找一位NLP教授时，对方却递给他一堆“语法分析树”（parse trees），这让他感到理想与现实的巨大差距，一度陷入了“绝望之谷”。直到深度学习的浪潮袭来。 2012年的AlexNet在ImageNet竞赛中一鸣惊人，一个相对通用的学习机器，用卷积神经网络，轻松击败了计算机视觉领域几十年的研究成果。很快，这个“魔法”开始在NLP、机器翻译等各个领域复现，打破了不同学科间的壁垒。 “那一刻，我意识到，这就是图灵所说的那种技术。”Greg说。他发现，神经网络的核心思想可以追溯到1943年，而那些在“AI寒冬”中被嘲笑为“只会堆砌更大计算机”的研究者，恰恰做对了事情。“是的，”他笑着说，“这正是我们所需要做的。” 所有因素都已具备，现在，只需要去构建。构建OpenAI：当工程师文化遇上学术研究在2022年，Greg曾写道：“现在是成为ML工程师的时代。”他坚信，优秀的工程师与优秀的研究员对未来的贡献同等重要。这种“研究与工程并重”的理念，从一开始就根植于OpenAI的文化中。但他坦言，融合两种文化并不容易。工程师习惯于清晰的接口（interface），认为只要接口不变，背后的实现可以随意更改。研究员则不然，因为模型性能的细微下降可能来自系统任何地方的bug，他们必须理解整个系统，接口的抽象在他们看来并不可靠。这种思维差异曾导致项目停滞不前。最终，他们摸索出了一种合作模式，其核心是Greg所强调的“技术谦逊”（Technical Humility）。 “对于加入OpenAI的工程师，我总会说，你带着宝贵的技能而来，但这和传统的Web创业公司是完全不同的环境。最重要的事情是，带着谦逊的心态，去倾听、去理解，直到你真正明白‘为什么’。在那之后，你再去做出改变，重构架构，改进抽象。” 这种互相尊重、深度融合的伙伴关系，最终成为了OpenAI强大创新能力的基础。发布幕后：从“心流编程”到AGI时代的开发新范式 1. 疯狂的发布日无论是ChatGPT还是最新的GPT-4o，OpenAI的每次发布都像一场风暴。ChatGPT在5天内吸引了100万用户，而GPT-4o的图片生成功能更是在5天内吸引了1亿用户。 “我们原本以为ChatGPT需要等到GPT-4发布才能火起来，”Greg透露，“结果我们大大低估了用户们的热情。” 面对远超预期的流量，他们做出了一个艰难但必要的决定：从研究团队那里临时抽调大量算力来支持线上服务。“这相当于抵押了未来，”他说，“但如果你能让用户体验到魔法，这一切都是值得的。” 2. “心流编程”与未来在GPT-4的发布会上，Greg现场演示了让模型根据一张手绘草图生成网站代码，这个“心流编程”（vibe coding）的时刻让世界第一次直观感受到了AI编程的魔力。（一个有趣的彩蛋是：那张草图是他妻子画的，因为他自己的字迹连AI都识别不了。）他认为，“心流编程”只是一个开始，它代表着一种赋权。未来，AI编程将朝着更强大的“智能体”（Agentic）方向发展。我们不再只是与AI进行交互式编程，而是可以部署成千上万个AI智能体，像管理同事一样管理它们，让它们在云端自主完成任务。 3. AI如何重塑我们的编码方式？在Greg看来，Codex等AI编程工具正在深刻地改变我们组织代码的方式。过去，我们的代码库是为人类的优势而设计的；未来，我们需要为模型的优势而设计。这意味着：更小的模块化：将代码拆分成更小、功能单一的模块。完善的测试：编写可以被快速、频繁运行的测试用例。清晰的文档：让模型能够理解每个模块的作用。 “这听起来就像是优秀的软件工程实践，对吧？”他说，“只是过去我们因为人力成本高而常常“偷懒”。现在，模型会比你多运行成千上万次测试，所以这些‘好习惯’变得前所未有的重要。” 从某种意义上说，我们应该像为初级开发者构建代码库一样，来最大化AI的效能。 4. 迎接AGI时代的开发新范式 NVIDIA创始人黄仁勋（Jensen Huang）也通过视频提出了一个问题：当AGI时代来临，开发者的工作流会发生怎样的变化？...

ChatGPT 负责人首次揭秘：从黑客松到 10 亿用户，你不知道的疯狂故事和 GPT-5 内幕

本文整理自对ChatGPT 的负责人 Nick Turley 的采访，带你 5 分钟了解这篇访谈的精华。 ChatGPT负责人首次揭秘：那个差点被命名为“与GPT-3.5聊天”的黑客松项目，如何改变了世界？你可能每天都在用它，但你绝对想不到，那个如今拥有近10亿用户、改变了无数人工作和生活的ChatGPT，诞生之初竟如此“草率”和“偶然”。它差点就被命名为一个极客味十足的“与GPT-3.5聊天”（Chat with GPT-3.5），它的付费模式源于一次“顶不住了”的服务器崩溃，它的20美元定价来自一份匆忙发在Discord上的问卷…… 最近，一直“藏在幕后”的ChatGPT负责人 Nick Turley 接受了他的首次深度播客访谈，毫无保留地分享了这些令人瞠目结舌的幕后故事。他曾是Dropbox和Instacart的产品负责人，如今，他掌管着可能是人类历史上最举足轻重的产品。让我们坐好，听听这位“火箭船”上的关键人物，亲口讲述这一切是怎么发生的。一个没人看好的“黑客松项目”，10天冲刺上线故事的起点，并不是什么宏大的战略规划。在GPT-4训练完成之际，OpenAI内部已经有了一个面向开发者的API产品，但团队发现了一个瓶颈：每次模型更新，都会“搞砸”开发者的应用，这让快速迭代和学习变得异常困难。团队迫切需要一个能直接与海量用户互动、收集真实反馈的渠道。于是，OpenAI搞了一场内部“黑客松”（Hackathon），主题是打造一个“超级助理”（Super Assistant）。大家的热情很高，各种想法冒了出来，比如能帮你开会的“会议机器人”，还有超前时代的“编程工具”。但一个有趣的问题出现了：无论团队测试哪个具体应用，用户总想用它来干点别的。“这项技术太通用了，” Nick 回忆道，“你给他们一个锤子，他们却想用它来拧螺丝、当尺子、甚至开瓶盖。” 几个月的原型设计后，团队做出了一个关键决定：放弃具体场景，干脆就做一个开放式的聊天界面，看看大家到底想用它来干什么。这个决定一下，节奏快得惊人。 “我当时就说，‘10天，10天后我们就得把这玩意儿发出去！’” Nick说。这个最初的团队，简直就是一支“杂牌军”：有来自超算团队、以前写过iOS应用的工程师；有来自研究团队、业余写后端代码的研究员。他们用一个名为SA Server（Super Assistant Server的缩写）的黑客松代码库，在短短10天内，把产品拼凑了出来。他们给产品起的名字也极其随意，一开始就打算叫“与GPT-3.5聊天”，因为“我们真没觉得它会成为一个成功的产品，它就是一个研究演示品。” 直到上线前一晚，才改成了稍微好一点点的“ChatGPT”。当时的计划是，赶在圣诞假期前上线，收集点数据，等假期回来就把这个“临时项目”关掉。然后，Sam Altman发了一条推文。剩下的，就是历史了。 “最大化加速了吗？” — OpenAI的节奏与心法 ChatGPT的意外爆红，让Nick和团队陷入了从“手忙脚乱”到“难以置信”的循环。但他们很快意识到，速度和执行力，恰恰是他们能抓住这次机会的关键。 Nick将一种理念深深植入了团队文化中，那就是设定团队的“静息心率”（resting heartbeat）——一种快速迭代、持续向前的内在节奏。在OpenAI内部，有一个流传甚广的梗，它源自Nick经常问的一个问题： “Is it maximally accelerated?” (这个项目被最大化加速了吗？) 这个问题甚至变成了一个粉色的、用Comic Sans字体制作的Slack表情包。每当有人想推动某个项目，或者质疑某个延迟时，就会甩出这个表情。 “我就是想直接跳到重点：‘为什么我们现在不能做？为什么明天不行？’” Nick解释说。这并不是要无脑求快，而是一个强大的思维工具，它能迫使团队分清什么是真正的阻碍，什么是可以绕过的流程。 “在AI领域，你只有把产品发布出去，才能真正理解它的可能性和用户的需求。” Nick强调，“很多东西是无法预先推演的。你必须先开枪，再瞄准。” 当然，这种“最大化加速”的理念并非适用于所有事。在安全问题上，OpenAI采用了完全相反的、极其严谨和审慎的流程。对于像GPT-5这样的前沿模型，团队会投入大量时间进行“红队演练”、外部评估，确保在推向世界前，已经做好了充足的准备。快与慢的辩证法，构成了OpenAI独特的执行力。在产品开发上追求极致的速度，在安全伦理上保持极致的审慎。那些改变历史的“偶然”决定在高速狂奔中，很多当初看似不起眼的临时决策，最终都产生了改变行业格局的影响。 1. 那个20美元的定价，来自一份谷歌问卷 ChatGPT上线初期，由于用户量暴增，服务器频繁宕机，主页上挂着一个AI生成的“道歉诗”。团队急需一种方式来“劝退”一部分需求，同时为真正有需要的用户提供稳定服务。于是，“付费版”的想法诞生了。但这玩意儿该怎么定价？ Nick回忆，当时他急得像热锅上的蚂蚁，给一位定价专家打电话求助，但根本没时间消化那些复杂的建议。情急之下，他做了一件非常“野路子”的事：他用谷歌表单创建了一份问卷，里面只有4个问题——完全照搬了当时网上流传的“Van Westendorp定价法”，然后把链接甩到了公司的Discord社群里。第二天早上，一份科技媒体的文章赫然写着：“揭秘！ChatGPT团队用四个天才问题为产品定价！” Nick看到后哭笑不得：“要是他们知道真相就好了。”...

介绍一下 GPT-5 在编码上的能力

OpenAI 于 2025年 8 月 8 日发布最新、最强大的、转为开发者设计的 AI 模型——GPT-5。该模型在编码和智能体任务方面树立了新的行业标杆，提供了前所未有的性能、可控性和协作能力。主要内容发布新一代模型 GPT-5：GPT-5 是一个专为编码和智能体任务优化的顶尖模型，现已通过 API 平台发布。卓越的编码与智能体能力：该模型在各项关键基准测试中表现出色，能够高效处理复杂的编码任务，如修复 bug、代码编辑和问答。同时，它在执行需要连续调用多个工具的长期智能体任务方面也达到了业界领先水平。增强的开发者控制：API 引入了多项新功能，包括用于控制响应速度与质量的 reasoning_effort 参数、调节内容详略的 verbosity 参数，以及支持更灵活工具调用的 custom tools。多样的模型选择：为满足不同场景下对性能、成本和延迟的需求，GPT-5 提供了三种不同规模的版本：gpt-5、gpt-5-mini 和 gpt-5-nano。更高的可靠性与安全性：GPT-5 在事实准确性上相比前代模型有显著提升，事实性错误减少了约 80%，使其在处理关键任务时更加值得信赖。关键细节性能表现编码能力：在 SWE-bench Verified 基准测试中得分 74.9%，超越了 o3 的 69.1%。在 Aider polyglot 代码编辑测试中得分 88%，错误率比 o3 降低了三分之一。在前端开发测试中，70% 的情况下优于 o3。智能体任务：在 τ2-bench telecom 工具调用基准测试中得分高达 96.7%，远超其他模型。能够可靠地连续或并行调用数十个工具来完成复杂任务。长上下文处理：在 OpenAI-MRCR 测试中全面超越前代模型，尤其在长输入下优势明显。所有 GPT-5 模型支持最高 272,000 输入 token 和 128,000 输出 token，总上下文长度达 400,000 token。事实准确性：在 LongFact 和 FactScore 基准测试中，事实性错误比 o3 减少了约 80%。新增 API 功能 reasoning_effort 参数：新增 minimal 选项，可在牺牲部分推理深度的情况下实现更快的响应。 verbosity 参数：提供 low、medium、high 三个级别，用于控制模型回答的详细程度。 custom tools (自定义工具)：允许模型使用纯文本（plaintext）而非 JSON 格式调用工具，并可通过正则表达式或上下文无关文法进行约束，简化了复杂输入的处理。模型版本与可用性 API 模型： gpt-5：$1....

介绍一下 OpenAI 发布的 GPT-5

OpenAI 于 2025年 8 月 8 日发布最新、最强大的 AI 模型——GPT-5。该模型在智能水平上实现了巨大飞跃，旨在提供更准确、更可靠、更实用的辅助，并面向所有用户推出。主要内容革命性的智能飞跃：GPT-5 是一个在性能上远超以往所有模型的 AI 系统，在编码、数学、写作、健康和视觉感知等多个领域树立了新的标杆。创新的统一系统架构：GPT-5 内部集成了一个能快速响应大多数问题的标准模型和一个用于解决复杂难题的深度推理模型（GPT-5 thinking）。系统通过一个智能路由器自动判断并选择最合适的模型，实现了效率与深度的统一。实用性和可靠性显著提升：新模型在减少“幻觉”（提供不实信息）、遵循指令和减少“谄媚”（过度附和）方面取得了重大进展，使其在写作、编码和健康咨询等核心应用场景中变得更加有用和可靠。分层级的用户体验：所有用户均可使用 GPT-5。Plus 和 Pro 等付费用户将获得更高的使用额度和更强的版本，其中 GPT-5 pro 专为处理最复杂的任务而设计，具备更强的推理能力。安全与交互的全新范式：GPT-5 引入了名为“安全完成”（safe completions）的全新安全训练方法，使其在保证安全的前提下尽可能提供有帮助的回答，而非简单地拒绝。同时，模型交互体验更自然，更像与一位博学的伙伴对话。关键细节系统架构与运行机制智能路由：GPT-5 的核心是一个实时路由器，它能根据对话类型、复杂度和用户意图（如用户输入“think hard about this”）来决定是快速回答还是启用深度推理模式。 GPT-5 pro：这是一个专为高难度任务设计的增强版，通过更长时间的并行计算，提供最全面、最准确的答案。在专家评测中，GPT-5 pro 在 67.8% 的情况下优于标准的 GPT-5 thinking 模式。性能与基准测试全面领先：GPT-5 在多项学术基准测试中创造了新的纪录，例如在 AIME 2025 数学竞赛中得分 94.6%，在 SWE-bench Verified 真实世界编码测试中得分 74.9%，在 MMMU 多模态理解测试中得分 84.2%。更高效率：GPT-5 (with thinking) 在实现更优性能的同时，所需的计算资源（输出 tokens）比 OpenAI o3 少 50-80%。核心应用领域提升编码：能够仅通过单个提示生成美观且响应迅速的网站、应用和游戏，对设计美学（如间距、排版）有更好的理解。写作：能更好地处理具有结构模糊性的写作任务，如创作无韵诗或自由诗，使文本兼具形式感与表达清晰度。健康：在 HealthBench 健康场景评测中得分显著提高，表现得更像一个“积极的思考伙伴”，能主动提出潜在问题，提供更安全、更具地理适应性的建议。可靠性与安全性的量化改进...

ChatGPT 会让人变笨还是成为终极学习工具？来自 OpenAI 和一线学生的真实声音

本文整理自 OpenAI 教育负责人对 ChatGPT 的深度解读，带你 5 分钟了解这篇访谈的精华。 ChatGPT会让人变笨吗？来自OpenAI和一线学生的真实答案当ChatGPT横空出世，整个教育界都为之一振。无数的讨论瞬间点燃：这玩意儿会让学生变懒、变笨，甚至让“脑子生锈”吗？它是不是就是个终极作弊工具？为了搞清楚这些问题，我们不妨听听两种最真实的声音：一个是来自行业内部的顶层设计者——OpenAI的教育负责人Leah Bellski；另一个则来自每天都在使用这些工具的一线学生——Yabi和Alaa。他们的分享，或许能帮我们拨开迷雾，看到一个更清晰的未来。一个宏大的“登月计划”：为每个人打造AI导师 Leah Bellski在教育领域深耕了15年，曾在世界银行和Coursera致力于让教育普惠全球。当她加入OpenAI时，首席运营官Brad Lightcap给了她一个听起来既疯狂又鼓舞人心的任务——去追逐那个“登月计划”。这个计划的核心梦想是：AI能极大地提升人类潜能，成为伴随每个人一生的有效导师和伙伴。这不仅仅是一个产品目标，更是一种愿景。Leah的任务就是要去实现它，并确保这个工具一旦建成，全世界的每一个人都能用上。这个愿景也解释了为什么OpenAI如此看重教育。如今，拥有6亿用户的ChatGPT，已经可以说是世界上最大的学习平台之一。“学习”是其最核心的用途之一。这不仅限于传统课堂，更延伸到了课堂之外的广阔世界。 AI在全球教育领域的真实足迹 AI教育的浪潮正以前所未有的速度席卷全球。教师们是早期拥抱者：他们不仅用AI来减轻备课、批改作业等行政负担，还积极地将其带入课堂，探索新的教学方法。国家级的战略布局：像爱沙尼亚这样教育水平顶尖的国家，率先看到了AI的潜力，希望用它来进一步激发学生潜能、赋能教师。紧随其后的国家络绎不绝，他们不仅希望通过AI提升教育质量，更意识到，要建立一个AI驱动的经济体，就必须培养出懂得使用AI的下一代。这已经不是开设几门AI课程那么简单，而是要让AI融入每一门课，成为学生毕业时必须掌握的核心技能。从“猫鼠游戏”到建立信任当然，AI进入校园并非一帆风顺。最初，许多学校的第一反应是“防堵”，推出了各种不靠谱的“AI内容检测器”。这种做法不仅伤害了那些被误判为作弊的学生，也让师生关系从一开始就站错了脚。 Leah坦言，我们最初“走错了路”，把重点放在了监管和限制上，而不是去思考如何重新设计我们的评估方式和作业形式。更深层次的问题在于信任。现在的大学生是“新冠一代”，他们对在线监控式的教育技术有着天然的警惕。如果学校只是提供一个AI工具，却不明确承诺不会监控学生的对话，学生们是不敢放心使用的。好在，情况正在好转。越来越多的教育者意识到，单纯的禁止是行不通的。他们开始积极探索如何将AI融入教学，设计出更有挑战性、更能激发创造力的项目。不只是给答案：“学习模式”的诞生为了解决“AI只会给答案，让人无法深度学习”的担忧，OpenAI推出了一个名为**“学习模式”（Study Mode）**的新功能。这个功能的灵感来源于一次印度之行。团队发现，在印度，家庭会在课后辅导上投入巨额开销，年轻人有着极强的学习意愿。这促使他们思考：如何让ChatGPT成为一个比现在更好的导师？ “学习模式”就是答案。它彻底改变了交互方式：它不会直接给你答案，而是像苏格拉底一样，通过反问来引导你思考。它会个性化定制内容，根据你的知识水平调整难度。它会鼓励你、追问你，比如“你想不想就这个话题来个小测验？”或者“你想不想再深入聊聊？” 简单来说，它把一个“问答机”变成了一个真正的“学习伙伴”。未来，它甚至可能变得更加主动和多模态，比如在你学习有机化学时弹出交互式图表，或者在几周后提醒你：“嘿，还记得你说要攻克期末考试吗？我们再来复习一下吧？” 这个功能的目标，就是让学生不必成为一个“提示词工程师”，也能自然而然地进入深度学习的状态。一线学生的声音：从史莱克同人小说到学习利器理论归理论，学生们的真实体验又是怎样的？我们和来自南加州大学（USC）的Yabi与来自伯克利大学的Alaa聊了聊。第一次“啊哈！”时刻每个人的AI初体验都充满了故事感。 Alaa的经历很经典。高三时，他和同学们围在电脑前，抱着试一试的心态，让ChatGPT写一篇关于《杀死一只知更鸟》的论文。当一篇完整的文章瞬间生成时，所有人都被震撼了。他说：“我当然没有交那篇作业，但那一刻真的太酷了。” Yabi的经历则更有趣。她第一次使用ChatGPT，是让它写一篇……史莱克（Shrek）的同人小说。当她把这个“杰作”分享给室友时，大家觉得这事儿挺傻的。但对Yabi来说，这个有点无厘头的尝试让她看到了AI的另一种可能性——它不仅能用于学术，更能融入日常生活的方方面面，成为一个激发创意的工具。课堂正在如何改变？两位同学都观察到，教授们正在积极适应AI带来的变化。从“是什么”到“怎么用”：作业和考试题目正在悄悄改变。过去那种“定义某个术语”的问题越来越少，取而代之的是“如何应用这个概念？”“它在更宏大的背景下意味着什么？”等更侧重于思辨和应用的问题。分轨制的项目挑战：Alaa的计算机科学教授设计了两种项目路径供学生选择。你可以选择不用AI，完成一个传统的项目；或者使用AI，但必须接受一个更难的挑战，并写一篇反思，说明你是如何利用AI的。这种做法既保证了学生对基础知识的掌握，又鼓励他们利用新工具去挑战更高的高度。成为AI的主人：高级玩家的提示技巧和很多人想象的不同，这些深度用户并不是简单地复制粘贴。他们已经摸索出了一套让AI更好地为自己服务的“独门秘籍”。设定角色（Persona）：这是最常用的技巧之一。与其泛泛地提问，不如让AI扮演一个特定角色。比如，Yabi在研究阴谋论时，会让ChatGPT扮演不同政治立场的人，来分析同一个（由AI编造的，关于机场镜子的）阴谋论，从而获得更立体、更多元的视角。Alaa则会要求它扮演“顶级公司的顾问”或“极富创造力的教授”，从而获得更专业或更具启发性的回答。提供明确的约束和背景：Yabi在做研究时，会先把几篇高质量的学术论文喂给ChatGPT，然后要求它“只能基于这些信息进行总结和分析”，从而保证了输出内容的严谨性。要求批判性反馈：AI的回答往往过于正面和鼓励。为了得到真实的反馈，Alaa会在自定义指令里写上“不要废话，直接点，对我残酷一点”（No fluff, be brutally honest）。这样，AI就会变成一个严厉的批评家，帮助他发现作品中的真实问题。 AI vs. 社交媒体：主动探索与被动接收一个有趣的趋势是，这两位学生都表示，他们花在ChatGPT上的时间越来越多，而在社交媒体（尤其是TikTok）上的时间则在减少。他们认为，社交媒体提供的是一种“被动的内容消费”，你只是在无尽地滑动，接收着算法投喂给你的碎片化信息，这会让人变得“自满和懒惰”。而使用ChatGPT则是一种主动的、有目的性的探索。你可以明确地提出问题，深入挖掘自己感兴趣的领域，这是一种高质量的信息获取方式。Alaa说：“当我想要学习和探索想法时，我会问ChatGPT，而不是去刷社交媒体。” 年轻人的希望与恐惧对于未来，他们既充满乐观，也有着清醒的思考。恐惧什么？ Yabi担心“真理的中心化”。如果所有人都依赖同一个信息源，而不去主动寻找和整合不同来源的知识，这可能会形成一个巨大的信息茧房和糟糕的反馈循环。 Alaa则担心人们会因为滥用工具而忽视基础。他认为，教育的核心概念和解决问题的思维方式依然至关重要，如果学生们只想着用AI绕过学习过程，当他们真正进入职场时，会发现自己缺乏真正的竞争力。希望什么？他们都预见了一个人机协作的混合式教育未来。AI可以承担起教科书、助教甚至部分讲师的角色，提供标准化的、个性化的知识。而人类教师则会转型为导师（Mentor），更专注于培养学生的社交技能、批判性思维、伦理观念，以及如何更好地与AI协作。正如Yabi所说：“教学的核心在于人与人的连接。谁教你，如何教你，会深刻地影响你的一生。这种人性的部分是AI无法替代的。”...

介绍一下 OpenAI 开源的两款 LLLM 模型：gpt-oss-120b 和 gpt-oss-20b

OpenAI 在 2025 年 8 月 5 日最新发布了两个开源权重语言模型：gpt-oss-120b 和 gpt-oss-20b。这两个模型在保持低成本和高效率的同时，提供了顶尖的性能，特别是在推理和工具使用方面，并确立了开源模型安全性的新标准。主要内容发布高性能开源模型：OpenAI 发布了 gpt-oss-120b 和 gpt-oss-20b 两款模型，它们采用灵活的 Apache 2.0 许可证，旨在以低成本在消费级硬件上实现高效部署。强大的推理与工具使用能力：这些模型经过优化，在推理任务上表现出色，性能可与 OpenAI o4-mini 等先进模型媲美，并具备强大的工具使用、少样本函数调用和思维链（CoT）推理能力。安全是核心：OpenAI 将安全放在首位，通过全面的安全训练、评估以及创新的“最坏情况微调”测试来评估和降低潜在风险，为开源模型树立了新的安全标杆。推动 AI 民主化与创新：通过开源这些模型，OpenAI 旨在赋能从个人开发者到大型企业的各类用户，在自有基础设施上运行和定制 AI，从而促进全球范围内的 AI 创新、研究和应用，扩大民主化的 AI 发展路径。关键细节模型性能与规格 gpt-oss-120b：性能：在核心推理基准测试中接近 OpenAI o4-mini 的水平。硬件要求：可在单张 80 GB GPU 上高效运行。参数：总参数量为 117b，每次推理激活 5.1B 参数。 gpt-oss-20b：性能：在通用基准测试中表现与 OpenAI o3-mini 相当。硬件要求：仅需 16 GB 内存，适用于设备端应用和本地推理。参数：总参数量为 21b，每次推理激活 3.6B 参数。基准测试表现：在编程（Codeforces）、数学竞赛（AIME）、健康（HealthBench）和工具调用（TauBench）等多个领域，两款模型均表现优异，甚至在某些方面超越了 GPT-4o 等专有模型。技术架构与训练架构：模型基于 Transformer 架构，并采用专家混合（MoE）技术来提高效率。它们还使用了分组多查询注意力（grouped multi-query attention）和旋转位置编码（RoPE），支持高达 128k 的上下文长度。训练数据：主要使用以 STEM、编程和通用知识为重点的英文文本数据集进行训练。后训练：采用了与 o4-mini 类似的后训练流程，包括监督微调和高算力强化学习阶段，以对齐 OpenAI Model Spec 并教授模型进行思维链（CoT）推理和工具使用。值得注意的是，模型的 CoT 未经直接监督，以便于研究和监控模型行为。安全性措施主动风险评估：OpenAI 通过对模型进行恶意的、针对特定领域（如生物和网络安全）的微调，来模拟攻击者行为并评估潜在风险。结果表明，即使经过恶意微调，模型也未能达到危险的能力水平。安全训练：在预训练阶段过滤了与化学、生物、放射性和核（CBRN）相关的有害数据；在后训练阶段，通过蓄意对齐等技术教会模型拒绝不安全的提示。社区参与：发起 50 万美元奖金的“红队挑战赛”（Red Teaming Challenge），鼓励社区共同发现和解决新的安全问题。可用性与生态系统获取方式：模型权重在 Hugging Face 上免费提供，并原生支持 MXFP4 量化。工具与支持：同时开源了 harmony 提示格式渲染器、PyTorch 和 Apple Metal 的参考实现以及示例工具集。广泛合作：与 Azure、Hugging Face、NVIDIA、AMD 等领先的部署平台和硬件厂商合作，确保模型可以被广泛、便捷地使用。微软还将在 Windows 设备上推出 gpt-oss-20b 的优化版本。第三方评测 OpenAI gpt-oss 模型独立基准测试：gpt-oss-120b 是最智能的美国开源权重模型，智能程度落后于 DeepSeek R1 和 Qwen3 235B，但具有效率优势。...