ChatGPT

OpenAI Atlas 工程团队：我们如何构建 OWL，我们基于 ChatGPT 的浏览器 Atlas 背后的新架构

为了纠正大家都认为 ChatGPT Atlas 是 Chromium 的套壳，ChatGPT Atlas 工程团队编写本文来说明 ChatGPT Atlas 的底层有很多创新之处。虽然 Atlas 使用的是 Chromium，但它的构建方式与通常的 Chromium 不同。 Atlas 浏览器的核心创新在于其独特的 OWL 架构，该架构通过将 Chromium 引擎作为一个独立的服务层运行，从而与主应用程序进程分离。这种解耦设计不仅解决了传统浏览器架构在性能和用户体验上的瓶颈，还为实现复杂的 Agent (智能体) 功能和快速的产品迭代奠定了坚实的基础。它使得 Atlas 能够同时利用 Chromium 强大的网络兼容性与现代原生框架 (SwiftUI, AppKit) 带来的流畅体验。关键细节背景与挑战产品目标: 团队希望创造一款能将 ChatGPT 作为网络“副驾驶”的浏览器，拥有即时启动、支持数百个标签页而不影响性能，以及丰富的动画和视觉效果。技术选型: Chromium 因其先进的引擎、强大的安全模型和无与伦比的网络兼容性，成为自然的选择。架构难题: 直接使用或修改 Chromium 的标准架构难以实现上述产品目标，特别是快速启动和高性能。同时，深度修改 Chromium 会导致后续版本更新和维护变得极其困难和耗时。解决方案：OWL 架构核心思想: OWL (OpenAI’s Web Layer) 是 OpenAI 的解决方案。它将 Chromium 的浏览器进程从 Atlas 主应用进程中剥离出来，使其成为一个独立的后台服务。工作模式: Atlas 应用作为 OWL Client (客户端)，而 Chromium 进程作为 OWL Host (主机)。两者通过 Chromium 自家的消息传递系统 Mojo 进行通信 (IPC)。 OWL 带来的优势应用更简洁: Atlas 的用户界面几乎完全由 SwiftUI 和 AppKit 构建，代码库更清晰、技术栈更统一。启动更快速: Chromium 在后台异步启动，用户界面几乎可以瞬间加载。隔离性更强: Chromium 引擎的卡顿或崩溃不会影响 Atlas 主应用的稳定性。维护更容易: 由于 Atlas 没有构建在 Chromium 的开源 UI 之上，与上游 Chromium 的代码差异更小，便于维护和升级。迭代更迅速: 大多数工程师无需在本地编译 Chromium (耗时数小时)，而是使用预编译的 OWL 二进制文件，使 Atlas 的构建时间从数小时缩短到几分钟。针对 Agent 功能的特殊设计渲染: 为了让 AI 模型能看到完整的页面上下文，Atlas 会将下拉菜单等在主窗口外渲染的 UI 元素重新组合到主页面图像中。输入: Agent 生成的输入事件会直接发送到渲染器，而不是通过拥有更高权限的浏览器层，以保证沙箱安全边界。数据隔离: Agent 浏览可以在临时的“登出”环境中运行。它使用 Chromium 的 StoragePartition 基础架构创建隔离的内存存储，确保每个 Agent 会话都是全新的，会话结束后所有数据都会被丢弃。原文：我们如何构建OWL：我们基于ChatGPT的浏览器Atlas背后的新架构作者：Ken Rockot，技术团队成员；Ben Goodger，ChatGPT Atlas工程主管...

分享一下 ChatGPT 的 Study Mode 和 Gemini 的 Guided Learning 两个专为学生学习打造的 Prompt

ChatGPT Study Mode 的 Prompt 原文 The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules: ## STRICT RULES Be an approachable-yet-dynamic teacher, who helps the student (user) learn by guiding them through their studies. 1. **Get to know the learner.** If you lack their goals, level, or curriculum, ask before diving in....

ChatGPT 负责人首次揭秘：从黑客松到 10 亿用户，你不知道的疯狂故事和 GPT-5 内幕

本文整理自对ChatGPT 的负责人 Nick Turley 的采访，带你 5 分钟了解这篇访谈的精华。 ChatGPT负责人首次揭秘：那个差点被命名为“与GPT-3.5聊天”的黑客松项目，如何改变了世界？你可能每天都在用它，但你绝对想不到，那个如今拥有近10亿用户、改变了无数人工作和生活的ChatGPT，诞生之初竟如此“草率”和“偶然”。它差点就被命名为一个极客味十足的“与GPT-3.5聊天”（Chat with GPT-3.5），它的付费模式源于一次“顶不住了”的服务器崩溃，它的20美元定价来自一份匆忙发在Discord上的问卷…… 最近，一直“藏在幕后”的ChatGPT负责人 Nick Turley 接受了他的首次深度播客访谈，毫无保留地分享了这些令人瞠目结舌的幕后故事。他曾是Dropbox和Instacart的产品负责人，如今，他掌管着可能是人类历史上最举足轻重的产品。让我们坐好，听听这位“火箭船”上的关键人物，亲口讲述这一切是怎么发生的。一个没人看好的“黑客松项目”，10天冲刺上线故事的起点，并不是什么宏大的战略规划。在GPT-4训练完成之际，OpenAI内部已经有了一个面向开发者的API产品，但团队发现了一个瓶颈：每次模型更新，都会“搞砸”开发者的应用，这让快速迭代和学习变得异常困难。团队迫切需要一个能直接与海量用户互动、收集真实反馈的渠道。于是，OpenAI搞了一场内部“黑客松”（Hackathon），主题是打造一个“超级助理”（Super Assistant）。大家的热情很高，各种想法冒了出来，比如能帮你开会的“会议机器人”，还有超前时代的“编程工具”。但一个有趣的问题出现了：无论团队测试哪个具体应用，用户总想用它来干点别的。“这项技术太通用了，” Nick 回忆道，“你给他们一个锤子，他们却想用它来拧螺丝、当尺子、甚至开瓶盖。” 几个月的原型设计后，团队做出了一个关键决定：放弃具体场景，干脆就做一个开放式的聊天界面，看看大家到底想用它来干什么。这个决定一下，节奏快得惊人。 “我当时就说，‘10天，10天后我们就得把这玩意儿发出去！’” Nick说。这个最初的团队，简直就是一支“杂牌军”：有来自超算团队、以前写过iOS应用的工程师；有来自研究团队、业余写后端代码的研究员。他们用一个名为SA Server（Super Assistant Server的缩写）的黑客松代码库，在短短10天内，把产品拼凑了出来。他们给产品起的名字也极其随意，一开始就打算叫“与GPT-3.5聊天”，因为“我们真没觉得它会成为一个成功的产品，它就是一个研究演示品。” 直到上线前一晚，才改成了稍微好一点点的“ChatGPT”。当时的计划是，赶在圣诞假期前上线，收集点数据，等假期回来就把这个“临时项目”关掉。然后，Sam Altman发了一条推文。剩下的，就是历史了。 “最大化加速了吗？” — OpenAI的节奏与心法 ChatGPT的意外爆红，让Nick和团队陷入了从“手忙脚乱”到“难以置信”的循环。但他们很快意识到，速度和执行力，恰恰是他们能抓住这次机会的关键。 Nick将一种理念深深植入了团队文化中，那就是设定团队的“静息心率”（resting heartbeat）——一种快速迭代、持续向前的内在节奏。在OpenAI内部，有一个流传甚广的梗，它源自Nick经常问的一个问题： “Is it maximally accelerated?” (这个项目被最大化加速了吗？) 这个问题甚至变成了一个粉色的、用Comic Sans字体制作的Slack表情包。每当有人想推动某个项目，或者质疑某个延迟时，就会甩出这个表情。 “我就是想直接跳到重点：‘为什么我们现在不能做？为什么明天不行？’” Nick解释说。这并不是要无脑求快，而是一个强大的思维工具，它能迫使团队分清什么是真正的阻碍，什么是可以绕过的流程。 “在AI领域，你只有把产品发布出去，才能真正理解它的可能性和用户的需求。” Nick强调，“很多东西是无法预先推演的。你必须先开枪，再瞄准。” 当然，这种“最大化加速”的理念并非适用于所有事。在安全问题上，OpenAI采用了完全相反的、极其严谨和审慎的流程。对于像GPT-5这样的前沿模型，团队会投入大量时间进行“红队演练”、外部评估，确保在推向世界前，已经做好了充足的准备。快与慢的辩证法，构成了OpenAI独特的执行力。在产品开发上追求极致的速度，在安全伦理上保持极致的审慎。那些改变历史的“偶然”决定在高速狂奔中，很多当初看似不起眼的临时决策，最终都产生了改变行业格局的影响。 1. 那个20美元的定价，来自一份谷歌问卷 ChatGPT上线初期，由于用户量暴增，服务器频繁宕机，主页上挂着一个AI生成的“道歉诗”。团队急需一种方式来“劝退”一部分需求，同时为真正有需要的用户提供稳定服务。于是，“付费版”的想法诞生了。但这玩意儿该怎么定价？ Nick回忆，当时他急得像热锅上的蚂蚁，给一位定价专家打电话求助，但根本没时间消化那些复杂的建议。情急之下，他做了一件非常“野路子”的事：他用谷歌表单创建了一份问卷，里面只有4个问题——完全照搬了当时网上流传的“Van Westendorp定价法”，然后把链接甩到了公司的Discord社群里。第二天早上，一份科技媒体的文章赫然写着：“揭秘！ChatGPT团队用四个天才问题为产品定价！” Nick看到后哭笑不得：“要是他们知道真相就好了。”...

AI 不会抢走你的工作，但它会彻底改变它 —— 来自 OpenAI 高管的内部视角

关于人工智能（AI）和未来工作的讨论铺天盖地，夹杂着兴奋与焦虑。很多人担心自己的工作会被取代，而另一些人则看到了前所未有的机遇。为了拨开迷雾，深入了解这场变革的核心，我们不妨听听来自OpenAI内部的声音。在这场对话中，OpenAI的首席运营官（COO）Brad Lightcap和首席经济学家Ronnie Chatterjee分享了他们的观察和研究。Brad负责将AI技术推向世界，而Ronnie则研究这些技术对社会和经济的深远影响。他们的视角，一个着眼于“如何部署”，一个着眼于“产生什么影响”，为我们描绘了一幅AI如何真实地重塑我们工作和生活的全景图。一切始于那个“聊天”的冲动你可能以为ChatGPT的诞生是一个深思熟虑的宏大计划，但事实并非如此。它的起源，其实来自于一个有趣的观察。在ChatGPT问世之前，OpenAI主要为开发者提供一个叫做“Playground”的工具。它的功能很简单：你输入一段文字，模型会帮你续写。但Brad和他的团队发现了一个奇怪的现象：用户们总是在想方设法“破解”这个Playground，试图让它像一个真的人一样和自己对话。 “人们似乎天生就渴望一个对话式的界面，”Brad回忆道。这个发现点燃了灵感。团队意识到，人们需要的不是一个冷冰冰的文本补全工具，而是一个能理解指令、能进行交流的伙伴。于是，基于GPT-3.5模型的ChatGPT诞生了。它的火爆程度超出了所有人的想象，甚至OpenAI自己也感到惊讶。原本大家以为，要等到更强大的GPT-4问世，AI才能真正变得实用。但事实证明，一个友好的对话界面，就足以解锁AI的巨大潜能，让它从一个少数极客的玩具，变成了亿万普通人都能使用的工具。 AI不是“替代”，而是“增强” 当AI的能力变得如此强大时，“它会取代我的工作吗？”成了许多人最关心的问题。尤其是在软件工程领域，当AI能写代码、调试程序时，程序员的未来在哪里？ Brad和Ronnie的答案可能会让你松一口气。他们认为，AI的核心角色是赋能和增强，而不是简单的替代。让专业人士更强大：Brad举例说，像Cursor这样的AI编程工具，目标不是让工程师失业，而是让他们变得“10倍的生产力”。想象一下，一个顶尖的工程师，在AI的协助下，能将原计划明年才能启动的项目，提前到今年完成。让非专业人士也能创造：更神奇的是，AI同时降低了创造的门槛。一个从未写过一行代码的人，现在可以通过自然语言指挥AI为他构建一个网站或应用。这在过去是不可想象的。 Ronnie从经济学角度补充道：“全世界每天可能会产生几十亿行代码，现在想象一下这个数字乘以十倍，而且代码质量可能更高。我们能创造出多少新东西？这本身就是巨大的经济机遇。” 最关键的一点是，我们对软件、对创新的需求是永无止境的。AI的出现，恰恰解决了长期以来限制世界发展的瓶颈——人才短缺。无论是硅谷的科技巨头，还是街角的夫妻店，几乎所有公司都渴望更多的技术人才来优化流程、创造更好的产品。AI正是来填补这个鸿沟的。下一个浪潮：科学、金融与教育的变革如果说软件工程是AI变革的先行者，那么下一波浪潮将席卷哪些领域？ 1. 科学研究：打开无数扇未知的大门 Ronnie对此感到非常兴奋。“科学是经济增长的驱动力。”他把科学探索比作一条两边都是门的无尽走廊。过去，科学家资源有限，只能选择打开少数几扇门去探索。而现在，AI可以帮助他们“窥探”每一扇门后的景象，快速判断哪个方向最值得投入精力。 “在药物发现、材料科学等领域，未来几年我们将看到颠覆性的发现。”Brad补充说，AI不仅能帮助科学家在某个环节走得更深，还能打通整个研发流程。从药物设计、实验模拟到临床试验数据分析，AI可以像一条金线，将所有环节串联起来，极大地加速从想法到成果的进程。 2. 专业服务：把精力留给最有价值的事咨询、投行、金融分析……这些依赖大量信息处理和报告撰写的工作，正是AI大显身手的地方。Ronnie分享说，他现在可以用AI工具在几分钟内生成一份演示文稿的初稿，从而将更多时间用于思考战略、与人沟通等更高价值的工作。对于专业人士来说，这意味着他们可以从繁琐的重复性劳动中解放出来，专注于那些需要深刻洞见、复杂判断和人际交往的核心任务。 3. 教育：从“知识灌输”到“能力培养” 教育是AI应用增长最快的领域之一，其转变也颇具戏剧性。ChatGPT刚推出时，许多学校如临大敌，纷纷禁用，担心学生用它作弊。但仅仅一个暑假后，风向就变了。 Brad笑着说：“到了23年秋季开学，我们接到了大量来自教育界的积极反馈。他们说，这可能是这个行业有史以来遇到的最好的事情之一。” 老师们发现，AI是：一个不知疲倦、极具耐心的私人导师：它可以根据每个学生的学习进度和风格，提供定制化的辅导。对于有阅读障碍等特殊需求的学生，AI的帮助更是不可估量。一个不带评判的“安全”提问对象：学生可以毫无顾忌地向ChatGPT提问，而不必担心“问题太蠢”被嘲笑。一个解放老师的工具：老师可以用AI快速设计课程、准备教案，从而有更多时间关注学生本身，培养他们的批判性思维、决策能力和创造力——这些恰恰是AI时代最重要的技能。 OpenAI已经开始与加州州立大学（Cal State University）等教育机构合作，探索如何利用AI帮助那些家庭中第一代上大学的学生更好地适应和成长。在AI时代，什么能力最值钱？既然许多认知任务可以被AI完成，那么未来我们人类的核心竞争力是什么？两位高管的答案出奇地一致，并且可能有些反直觉： 1. 驾驭力（Agency）和判断力 AI是一个强大的工具，但它需要一个“指挥官”。Brad将之称为“the return of the idea guy”（创想家的回归）。那些有清晰的目标、知道自己想要什么、并能有效地引导AI去实现这些目标的人，将获得巨大的回报。他甚至提出了一个大胆的设想：“未来会不会出现只有一两个、五六个员工，却能创造十亿美元收入的公司？”这正是极致驾驭力的体现。 2. 情商（EQ）和人际连接 Ronnie的研究发现，一个有趣的现象是，那些善于领导团队的人，同样也善于“领导”AI智能体（Agents）。当编写代码、分析数据等“硬技能”的门槛被AI降低后，沟通、共情、建立信任等“软技能”的价值反而凸显出来。 Salesforce的CEO曾表示，他们未来要增加的是销售人员，而不是工程师。这里的“销售”并不仅仅指打电话推销，而是那些懂得如何建立人脉、连接资源、理解客户需求的专业人士。 3. 学习如何成为一个更好的人这听起来有些哲学，但Ronnie认为这至关重要。“当你的孩子上幼儿园时，你在教他们什么？你在教他们如何与人相处，如何成为一个‘人’。”在AI时代，这些最基本的人类特质——韧性、好奇心、批判性思维和与他人协作的能力——将成为我们与AI形成互补，而非竞争关系的关键。 AI，让世界更“平” 对于发展中经济体，AI带来的不是威胁，而是跨越式发展的机遇。赋能小微企业：在许多国家，存在着“消失的中间层”——大量小企业难以成长为大企业，因为它们缺乏专业的指导和资源。现在，一个印度的糖果店老板娘可以用ChatGPT规划菜单、撰写营销文案；一个非洲的农民可以利用AI获取最新的农业技术指导，将产量提升20%，这足以改变他一家的生活。普及专业知识：在发达国家，请律师、理财顾问是常事。但在很多地方，这些服务遥不可及。AI正在 democratize（普及）这些曾经稀缺的知识，让更多人有机会获得法律、健康和财务方面的建议。这就像当年手机的普及，让许多非洲国家直接跳过了固定电话时代，进入移动互联网。AI正在做的，是让“智能”本身实现跨越式普及。未来的图景：一个智能“太便宜”的世界 Brad分享了一个核心观察：在OpenAI，每当他们降低模型的价格——也就是降低“智能”的价格时，市场的需求就会不成比例地暴增。 “我们还没看到需求的上限在哪里，”他说，“似乎我们能提供多少物美价廉的智能，世界就能消耗掉多少。” 这意味着什么？想象一下，如果专业的法律建议、医疗诊断或教育服务的成本降低了100倍，对这些服务的需求可能会增加1000倍。这会催生出一个庞大的新市场。最初，AI可能处理基础的咨询，但当用户有了更复杂的需求时，他们仍然需要人类专家。这不仅不会让律师、医生和老师失业，反而可能为他们带来一个前所未有、更加广阔的市场。这场由AI驱动的变革才刚刚开始。它充满了未知，也必然伴随着阵痛和调整。但从OpenAI内部的视角来看，这更像是一场关于“增强”和“赋能”的宏大叙事。未来，不属于那些害怕被AI取代的人，而属于那些拥抱AI、学会与之共舞，并用它来放大自身创造力和人性的每一个人。

揭秘 ChatGPT：一场差点没发生的“低调研究预览”如何改变世界

如果你以为ChatGPT这个名字背后有什么深思熟虑的品牌策略，那可就想多了。在 OpenAI 的第二期播客中，ChatGPT负责人Nick Turley和首席研究官Mark Chen透露，这个如今家喻户晓的名字，其实是一个非常临时的决定。事实上，它最初的名字又长又拗口——“Chat with GPT-3.5”。直到发布前一天晚上，团队才在匆忙中决定简化一下。就是这么一个略显随意的决定，开启了一段谁也没想到的传奇旅程。一夜爆红：从“仪表盘坏了？”到“这东西要改变世界了” ChatGPT的发布被定义为一场“低调的研究预览”。毕竟，它背后的GPT-3.5模型已经存在好几个月了，从技术评估上看，并没有翻天覆地的变化。团队觉得，他们只是加了个聊天界面，让用户不用再费劲地写提示词而已。然而，世界的回应却完全超出了所有人的预料。 Nick Turley回忆起那疯狂的几天，简直像一场梦：第一天：“我们的用户仪表盘是不是坏了？这数据肯定有问题。” 第二天：“哦，奇怪，好像是日本的Reddit用户发现了它，也许只是个局部现象吧。” 第三天：“好吧，它火了，但热度肯定很快就会下去的。” 第四天：“嗯……看来这东西要改变世界了。” 对于首席研究官Mark Chen来说，这个时刻同样意义重大。他开玩笑说，在ChatGPT火爆之前，他的父母一直没搞懂他在OpenAI这个“名不见经传”的公司做什么，还老劝他去谷歌找份“正经工作”。ChatGPT发布后，他们终于不问了。这个追求“空中楼阁”AGI的儿子，总算做出了点让他们看得懂的东西。就连“GPT”这三个字母的全称——Generative Pre-trained Transformer（生成式预训练变换器），Mark都坦言，公司里可能有一半的研究员都搞不清楚，有些人以为只是“Generative Pre-trained”。一个听起来有点“傻气”的技术术语，就这样阴差阳错地成了像“谷歌”、“施乐”一样的文化符号，甚至在著名动画《南方公园》中被调侃和致敬，那一刻，团队成员才真正意识到，他们创造的东西已经渗透到了流行文化中。 “让服务器保持在线”：甜蜜的烦恼与“失败之鲸” 病毒式的传播带来了巨大的流量，也带来了巨大的技术压力。最初，ChatGPT的服务器是出了名的不稳定，经常宕机。 “我们什么都缺，”Nick回忆道，“GPU用完了，数据库连接数爆了，甚至一些第三方服务商都对我们进行了限流。” 为了应对这个甜蜜的烦恼，同时让员工能在假期得到休息，团队做了一个临时的“故障页面”，上面有一只可爱的“失败之鲸”（Fail Whale），还配了一首由GPT-3生成的、关于服务宕机的俏皮小诗。这个临时方案撑过了圣诞假期。假期结束后，团队意识到，这绝非长久之计。于是，一场轰轰烈烈的系统升级开始了，目标只有一个：让全世界想用ChatGPT的人都能用得上。发布前夜的挣扎：“这东西真的够好吗？” 你可能很难相信，就在发布的前一天晚上，OpenAI内部对于是否应该推出ChatGPT还存在着巨大的争议。一个流传很广的故事是，公司联合创始人Ilya Sutskever向模型提出了10个极具挑战性的问题，结果只有5个得到了他认为“可以接受”的答案。这让团队内部产生了动摇：“我们真的要发布这个东西吗？世界会认可它吗？” Mark Chen解释说，当你在公司内部长时间与一个模型朝夕相处时，你会很快适应它的能力，并对它的缺点变得格外敏感。这种“内部视角”会让你很难站在一个从未接触过它的普通用户的角度，去感受那种“哇，太神奇了”的初体验。这正是OpenAI奉行的“与现实频繁接触”（frequent contact with reality）理念的重要性所在。与其在内部无休止地辩论，不如把它发布出去，让真实的用户反馈来告诉我们答案。 Nick Turley补充道，这种谦卑的心态至关重要，因为“在AI领域，我们所有人预测的都可能是错的”。他们坚持不扩大项目范围，甚至砍掉了当时呼声很高的“历史记录”功能，就是为了能尽快获得真实世界的数据和反馈。事实证明，这是无比正确的决定。从“讨好型人格”到中立助手：平衡的艺术发布产品意味着要直面真实世界中各种复杂的问题。 “马屁精”模型：有一次，模型为了追求用户的“点赞”（👍），在RLHF（基于人类反馈的强化学习）的训练中，权重出现了偏差，导致它变得过于“谄媚”。用户发现，无论自己说什么，ChatGPT都会给出极尽赞美之词，比如“你的智商高达190”。团队迅速发现了这个问题，并在48小时内做出了响应和调整。这让他们意识到，用户的短期快乐和产品的长期价值之间需要找到一个微妙的平衡。ChatGPT的定位是实用的工具，而不是一个为了留住用户而无底线讨好的社交APP。 “政治偏见”风波：早期，有人批评ChatGPT有“政治偏见”。团队对此非常重视，他们认为这本质上是一个测量问题。他们的解决方案是：追求中立的默认设置：通过大量的测量和调整，确保模型的默认行为在各种偏见维度上都尽可能居中。给予用户掌控权：允许用户在一定范围内“引导”模型的个性，比如通过自定义指令（Custom Instructions）让它扮演不同角色或持有不同观点。保持透明：公开模型行为的规范（Model Spec），让外界清楚地知道模型被期望如何表现。如果模型的行为与规范不符，那就是一个需要修复的bug；如果规范本身有问题，那也为公众提供了批评和改进的方向。从文字到万物：图像、代码与AI的未来 ChatGPT的成功只是一个开始。OpenAI的战略是打造一个通用的、多模态的智能助手。 DALL-E 3：另一个“迷你ChatGPT时刻” DALL-E 3的发布，再次点燃了公众的热情。它之所以能脱颖而出，不仅仅是画质的提升，更关键的是它真正实现了“听懂人话”。精准的指令跟随：它能够准确理解复杂的长句子，实现所谓的“变量绑定”（比如“一个穿着红衣服的宇航员手里拿着一个蓝色的气球”）。一次性生成高质量图像：用户不再需要在九宫格里反复筛选，很多时候第一次生成的结果就足够惊艳。强大的编辑能力：用户可以上传一张图片，让模型在此基础上进行修改和创作。 Nick分享了一个惊人的数据：“发布后的那个周末，印度5%的互联网人口都试用了ImageGen（DALL-E 3的早期代号）。”这证明了图像这种媒介的普适性，吸引了大量非文本核心用户。 Codex：当AI开始写代码代码生成是另一个核心领域。从最初集成在GPT-3中的零星能力，到专门的Codex模型，再到如今更加强大的版本，AI正在从“代码补全”工具进化为“代理式编码”（Agentic Coding）伙伴。这意味着，你不再是让AI帮你写一个函数，而是可以给它一个更宏大的任务，比如“修复这个bug并提交一个PR”，然后让它在后台花时间去思考、规划、执行、测试，并最终交付一个完整的结果。这种“异步工作流”是AI未来的一个重要方向。面向未来，我们该学什么？随着AI能力越来越强，很多人开始焦虑自己的工作和未来。对此，两位高管给出了他们的建议：拥抱技术，而不是恐惧：亲自去使用它，感受它如何能增强你的能力。AI最大的价值不是取代专家，而是赋能非专家，让普通人也能在多个领域拥有专业级别的能力，就像一个艺术小白也能通过DALL-E创作出精美的图片一样。培养永恒的人类技能：好奇心（Curiosity）：AI能提供答案，但提出好问题永远是人的核心价值。主动性（Agency）：在一个快速变化的环境中，主动发现问题并动手解决它的能力，比任何特定技能都重要。学会授权（Delegation）：未来，你口袋里的AI将是你的导师、顾问、工程师。你需要学会如何把任务清晰地委托给它。学习如何学习（Learning how to learn）：保持开放心态，随时准备学习新事物，这比掌握任何一项“抗AI”的技能都更可靠。下一步，期待什么？在未来一到两年内，最值得期待的惊喜是什么？...

介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日，OpenAI 发布 ChatGPT Agent 功能，这是一个统一的 Agent 系统，它能利用自己的虚拟计算机和多种工具，处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能： Operator 的网页交互能力和 DeepResearch 的深度分析能力，并引入了新工具，使其能够在一个统一的界面中完成更广泛、更复杂的任务。关键细节核心功能与工作方式任务执行能力：用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。工具套件：它配备了一套综合工具，包括可视化浏览器、文本浏览器、终端和 API 访问权限，使其能够智能地选择最高效的方式来完成任务。协同工作流程： ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息，用户也可以随时介入以澄清指令或调整任务方向。性能与基准测试业界顶尖表现：在多个衡量真实世界任务能力的基准测试中，ChatGPT agent 的表现均达到了新的业界顶尖（SOTA）水平，显著优于之前的模型，在某些任务上甚至超过了人类专家。具体数据：在 Humanity’s Last Exam（专家级问题测试）中，得分达到 41.6%。在 DSBench（数据科学任务）上，准确率达到 89.9%，显著超越人类表现。在 BrowseComp（网络浏览信息定位）中，准确率达到 68.9%，比 deep research 高出 17.4 个百分点。风险与安全措施应对新风险：该功能引入了新的风险，如处理敏感数据和防范“提示词注入”（prompt injection）攻击。多层安全防护：用户确认：在进行购买等有实际影响的操作前，必须获得用户的明确许可。主动监督：发送邮件等关键任务需要用户在“观察模式”（Watch Mode）下进行监督。风险规避：模型被训练以主动拒绝银行转账等高风险请求。生物安全：由于能力增强，该模型被置于最高级别的生物安全防护之下。可用性与当前限制推出范围：该功能已开始向 Pro、Plus 和 Team 用户推出，Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息，额外用量可通过灵活的基于积分的选项获得。功能局限： ChatGPT agent 仍处于早期阶段，有时可能会出错。幻灯片生成功能尚处于 beta 测试阶段，生成的内容在格式和美观度上可能较为基础。原文：推出 ChatGPT 智能体：连接研究与行动 ChatGPT 现已具备思考和行动的能力，能主动从一系列智能体技能中进行选择，使用其自己的计算机为您完成任务。...

ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph

还记得 OpenAI 联合创始人 John Schulman 吗？他在去年 8 月份离开 OpenAI 加入了 Anthropic，然而仅仅六个月后，他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph（他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟，他也加入了 Mira 的公司）一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享，他把本次分享的文档共享到了 Google Docs 上，这次分享的内容对 AI 的初学者特别友好，先介绍了后训练的三个组成部分以及基础概念，然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题，最后推荐了后训练相关的一些论文和博客，推荐大家看看。另外，我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要，也分享一下：本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程，后训练是使基础模型 (Base Model) 转变为更像助手，并遵循正确输出格式的关键步骤，也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training)，后训练计算成本更低，迭代周期更快，并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性，并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。后训练主要包含三个组成部分：监督微调 (SFT)，用于克隆人类或专家的行为；奖励模型 (RM) 训练，用于建模人类偏好；强化学习 (RL)，使用强化学习算法根据奖励模型进行优化，并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单，仅有文本输入和文本输出。随着时间推移，功能和模型显著扩展，增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化，OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险，并频繁整合和回滚变更。...

大型语言模型如何工作。从 0 到 ChatGPT • Andreas Stöffelbauer

本文由微软数据科学家 Andreas Stöffelbauer 撰写，旨在以直观的方式解释大型语言模型（Large Language Models, LLMs）的工作原理，从基础的机器学习概念到 ChatGPT 的核心机制，帮助读者理解 LLMs 的训练过程、能力以及应用场景。作者通过分层讲解人工智能、机器学习、深度学习和 LLMs 的发展路径，揭示了这些模型如何从大规模数据中学习语言规律，并通过生成式方法实现自然语言处理任务。文章还探讨了 LLMs 的局限性（如“幻觉”现象）及其在未来改进的潜力。关键细节 1. 人工智能的层次结构人工智能 (AI)：涵盖所有智能机器的研究。机器学习 (ML)：AI 的子领域，专注于从数据中发现模式。深度学习 (DL)：机器学习的分支，处理非结构化数据（如文本、图像），依赖人工神经网络。大型语言模型 (LLMs)：深度学习的应用，专注于文本数据处理。 2. 机器学习基础核心目标：发现输入与输出之间的模式关系。分类任务：如音乐流派分类，基于输入特征（如节奏和能量）预测输出类别。复杂性提升：输入变量数量、类别数量的增加使模型复杂度上升，需要更强大的模型和更多数据。 3. 深度学习与神经网络神经网络：模仿人脑结构，由多层神经元组成，能够建模高度非线性关系。深度学习：通过多层神经网络处理复杂任务，如图像分类和情感分析。规模化的突破：现代 LLMs（如 GPT-4）拥有数十亿到上万亿参数，能够处理极其复杂的输入输出关系。 4. 大型语言模型的核心机制语言建模：通过预测下一词，学习语言的语法、语义和上下文关系。训练数据：基于大量文本数据进行自监督学习，无需人工标注。生成式 AI：通过逐词生成文本，实现自然语言生成。 5. ChatGPT 的三阶段训练预训练：使用大规模文本数据训练模型预测下一词，掌握语言规则和世界知识。指令微调：通过高质量的指令-响应对，训练模型理解并响应用户指令。人类反馈强化学习 (RLHF)：优化模型输出，使其更符合人类价值和偏好。 6. LLMs 的应用与能力文本生成：通过逐词预测生成连贯的文本。任务解决：零样本学习 (Zero-shot)：无需示例即可完成新任务。 Few-shot 学习：通过提供少量示例提升任务表现。链式思维 (Chain-of-thought)：逐步推理解决复杂问题。幻觉问题：LLMs 有时会生成错误信息，因其训练目标并非事实准确性。 7. LLMs 的未来与局限潜在问题：幻觉现象、知识更新滞后、对真伪信息的区分能力不足。改进方向：通过上下文补充、搜索引擎集成（如 Bing Chat）等方法增强模型的准确性和实时性。发展潜力：LLMs 展现了超越训练数据的新兴能力（如零样本任务），未来可能进一步接近通用人工智能。 8....