Sam Altman 访谈实录:OpenAI 的“红色代码”、万亿豪赌与被低估的 AI 潜能

本文整理自 Youtube 知名博主 Alex Kantrowitz 对 Sam Altman 的最新访谈。访谈中 Sam Altman 深度解析了 ChatGPT 的下一步:从应对 DeepSeek 和 Gemini 的“红色代码”时刻,到 1.4 万亿美元的基础设施算账逻辑。为何他认为目前的模型能力被严重低估?未来的 AI 硬件为何可能没有屏幕?本文为你详细解读 OpenAI 赢得这场 AI 军备竞赛的底层逻辑。以下内容由我和 Gemini 3 Pro 共同整理完成。 OpenAI 已经十岁了,而 ChatGPT 也走过了三个年头。在这个不仅被谷歌 Gemini 紧追不舍,还被 DeepSeek 点击软肋的时刻,外界都在问:OpenAI 还能保持领先吗? 最近,OpenAI CEO Sam Altman 在一档深度访谈中,非常坦诚地聊了聊现在的局势、那个让人咋舌的 1.4 万亿美元基建计划,以及他对未来 AI 形态的真实想法。 与其说这是一次商业访谈,不如说是一次对未来几年的预演。如果你关心 AI 的走向,这篇深度解读不容错过。 不要浪费一次好的“危机” 还记得前段时间 DeepSeek 带来的冲击吗?或者谷歌发布的 Gemini 3?Altman 并不避讳这些竞争对手的存在。 实际上,OpenAI 内部有过所谓的“红色代码(Code Red)”时刻。但这并不是外界想象中的那种恐慌性崩溃。对 Altman 来说,这种状态通常只会持续 6 到 8 周。这是一种健康的“偏执”——当 DeepSeek 展现出某种优势,或者竞争对手不仅在模仿还在超越时,这对 OpenAI 来说反而是好事。它暴露了产品策略中的弱点,迫使团队快速修补。...

December 19, 2025 · 1 min · fisherdaddy

OpenAI 创始人 John Schulman 复盘:如果重回 2015,我们能光速造出 ChatGPT 吗?

本文整理自 Cursor CEO 对 OpenAI 联合创始人 John Schulman 的深度访谈:John Schulman on dead ends, scaling RL, and building research institutions,由我和 Gemini 3 Pro 共同整理完成。 如果给 OpenAI 的创始团队开一个“上帝视角”,让他们带着今天的知识回到 2015 年,重建 ChatGPT 需要多久? OpenAI 联合创始人 John Schulman 给出的答案可能有点反直觉:快得惊人,而且需要的算力比你想的要少得多。 这是一个关于“后见之明”、OpenAI 早期的一地鸡毛、RL(强化学习)的未来,以及他现在如何用 AI 写代码的深度思考。 带着答案考试:ChatGPT 其实可以“省钱”做 回看过去,如果我们知道确切的“配方”,其实并不需要当年那么恐怖的算力堆叠。 Schulman 提到,像 Andrej Karpathy 写的那种 NanoGPT 已经证明了,一个人、一台机器、半年时间就能跑出一个微缩版模型。如果在 2018 年或 2019 年,哪怕只有几张 GPU(当时还是 V100),只要有现在的 Post-training(后训练) 知识,几个聪明人加上高质量的微调数据,完全可以在那时就搞出 GPT-3.5 水平的对话模型。 今天的我们知道,通过巧妙的数据构建和微调,可以极大地“放大”算力的效果。也就是所谓的“小模型、大智慧”。未来甚至可能出现这种极客场景:一个文件搞定所有训练代码,一天之内跑完全流程。 早期 OpenAI:草台班子与“走错路”的探索 现在的 OpenAI 是市值巨无霸,但 Schulman 也没避讳早期的窘境。2016、2017 年那会儿,OpenAI 更像是一个稍微大点的学术实验室,甚至有点“杂牌军(ragtag)”的感觉。大家三两成群,凭兴趣做研究,写写论文。 当时有没有走弯路?当然有。...

December 18, 2025 · 1 min · fisherdaddy

我逆向工程了 ChatGPT 的记忆系统,这是我的发现!• Manthan Gupta

本文翻译自一位印度工程师在博客上发布的文章:I Reverse Engineered ChatGPT’s Memory System, and Here’s What I Found!。作者通过逆向工程发现了 ChatGPT 的记忆系统的实现方式,与普遍猜测不同,ChatGPT 并没有使用复杂的向量数据库或针对对话历史的 RAG(检索增强生成)技术。相反,它采用了一种分层架构,主要由以下四个核心部分组成: 会话元数据 (Session Metadata) 这是在会话开始时一次性注入的临时信息,包括设备类型、浏览器信息、大致位置、订阅等级以及使用模式(如活跃频率)。 这些信息帮助模型根据用户当前的软硬件环境调整回复,但不会在会话结束后保留。 用户记忆 (User Memory) 这是一个专门用于存储长期事实的工具,例如用户的姓名、职业目标、健身习惯及个人偏好。 作者的案例中存储了 33 个事实。这些信息通常在用户明确要求(如“记住这个”)或模型检测到关键信息并获得隐含确认时被存储。 这些记忆作为一个独立的模块,会被注入到每一次未来的提示词(Prompt)中。 近期对话摘要 (Recent Conversations Summary) 系统不会检索过去对话的完整记录,而是保留一份轻量级的摘要列表。 该列表包含时间戳、对话标题以及用户消息的片段。 这种方法充当了用户近期兴趣的“粗略地图”,在避免高延迟和 Token 成本的同时,维持了跨对话的连续性。 当前会话消息 (Current Session Messages) 这是当前对话的完整历史记录,采用滑动窗口机制。 其容量基于 Token 数量限制而非消息条数。当达到限制时,旧消息会被移除,但用户记忆和对话摘要依然保留,以确保当前对话的连贯性。 传统的 RAG 系统需要对每条过去的消息进行嵌入(Embedding)和相似度搜索,成本高且延迟大。ChatGPT 的方法通过预计算轻量级摘要并直接注入,牺牲了部分历史细节,换取了更快的响应速度和更高的效率。 原文 当我问 ChatGPT 它记得关于我的什么时,它列出了从我的名字和职业目标到我目前的健身计划等 33 个事实。但它实际上是如何存储和检索这些信息的呢?为什么感觉如此无缝? 经过广泛的实验,我发现 ChatGPT 的记忆系统比我预期的要简单得多。没有向量数据库。没有基于对话历史的 RAG(检索增强生成)。相反,它使用四个不同的层:适应你环境的会话元数据、长期存储的显式事实、最近聊天的轻量级摘要以及当前对话的滑动窗口。 这篇博客详细剖析了每一层是如何工作的,以及为什么这种方法可能优于传统的检索系统。这里的所有内容都来自于通过对话对 ChatGPT 行为的逆向工程。OpenAI 并没有公布这些实现细节。 ChatGPT 的上下文结构 在理解记忆之前,重要的是要理解 ChatGPT 接收到的每条消息的完整上下文。结构如下: [0] 系统 指令 [1] 开发者 指令 [2] 会话 元数据 (临时的) [3] 用户 记忆 (长期 事实) [4] 最近 对话 摘要 (过去的 聊天, 标题 + 片段) [5] 当前 会话 消息 (本次 聊天) [6] 你的 最新 消息 前两个组件定义了高级行为和安全规则。它们不是本博客的重点。有趣的部分始于会话元数据。...

December 11, 2025 · 2 min · fisherdaddy

介绍一下 ChatGPT 推出的购物研究功能

2025 年 11 月 24 日,ChatGPT 推出了一项名为 “shopping research” 的新体验,旨在通过自动化的深度研究帮助用户找到合适的产品。与简单的搜索不同,该功能通过询问澄清问题、深入检索互联网信息以及利用 ChatGPT 的记忆功能,为用户生成个性化的买家指南。 关键细节 交互方式与个性化体验 用户只需描述需求(如“为小公寓寻找最安静的无绳吸尘器”),系统便会自动建议使用 “shopping research”。 互动流程:系统会打开一个视觉界面,询问预算、使用对象及关注的功能等问题。 实时反馈:用户可以对推荐的产品标记“不感兴趣”或“类似更多”,引导系统根据实时反馈调整研究方向。 记忆整合:如果开启了记忆功能,系统会结合用户过往的偏好(如对游戏的兴趣)来定制搜索结果。 技术驱动与输出结果 模型支持:该功能由经过强化学习专门训练的 GPT-5 mini 版本驱动,能够阅读受信任的网站并综合多方信息。 最终产出:几分钟后,用户将收到一份包含首选产品、关键差异、权衡分析以及来自可靠零售商最新信息的个性化指南。 高级集成:对于 ChatGPT Pro 用户,该功能还集成在 Pulse 中,可根据过往对话主动建议相关的买家指南(例如讨论过电动自行车后推荐配件)。 透明度、信任与局限性 隐私保护:用户的聊天内容不会与零售商共享,结果基于公开的零售网站生成,避免低质量或垃圾网站。 购买方式:用户可点击链接跳转至商家网站购买,未来将支持通过 Instant Checkout 直接在 ChatGPT 内购买。 准确性提示:尽管模型在引用细节方面表现优于以往,但在价格和库存等信息上仍可能存在误差,建议用户访问商家网站获取最准确的详情。 原文:在 ChatGPT 中推出购物研究功能 一种全新的购物体验,助您找到适合您的产品。 今天,我们推出了“购物研究”(Shopping research),这是 ChatGPT 中的一项新体验,它能为您进行研究,帮助您找到合适的产品。您不再需要浏览几十个网站,只需描述您正在寻找什么——例如“为小公寓寻找最安静的无绳吸尘器”、“帮我在这三辆自行车之间做选择”或“我需要送给我四岁喜欢艺术的侄女一份礼物”——购物研究功能就会生成一份贴心的指南来帮助您做决定。它会提出巧妙的澄清问题,在互联网上进行深度研究,查阅优质来源,并结合 ChatGPT 从过去的对话和记忆中对您的了解,在几分钟内提供个性化的买家指南。 购物研究功能从今天开始在移动端和网页端向 Free、Go、Plus 和 Pro 套餐的已登录 ChatGPT 用户推出。为了协助假日购物,我们在整个假期期间向所有套餐用户提供几乎无限的使用权。 寻找合适的产品 数以亿计的人使用 ChatGPT 来查找、理解和比较产品。他们希望有人帮助理清各种选项,决定什么最符合他们的需求、预算和偏好。 购物研究正是为这种更深层次的决策而构建的。它将产品发现转化为一场对话:提出巧妙的问题以了解您关注的重点,从高质量来源提取准确、最新的详细信息,并将选项反馈给您以筛选结果。它在电子产品、美妆、家居园艺、厨房家电以及运动户外等细节繁多的类别中表现尤为出色。 对于像查询价格或确认功能这样的简单购物问题,常规的 ChatGPT 回复既快速又够用。但当您需要深度信息——如比较、限制条件、权衡取舍时——购物研究会花费几分钟时间,为您提供一份更详细、研究更透彻的答案。 发现新产品 帮我找一台适合游戏的强大新笔记本电脑,价格在 1000 美元以下,屏幕大于 15 英寸...

November 26, 2025 · 1 min · fisherdaddy

OpenAI Atlas 工程团队:我们如何构建 OWL,我们基于 ChatGPT 的浏览器 Atlas 背后的新架构

为了纠正大家都认为 ChatGPT Atlas 是 Chromium 的套壳,ChatGPT Atlas 工程团队编写本文来说明 ChatGPT Atlas 的底层有很多创新之处。虽然 Atlas 使用的是 Chromium,但它的构建方式与通常的 Chromium 不同。 Atlas 浏览器的核心创新在于其独特的 OWL 架构,该架构通过将 Chromium 引擎作为一个独立的服务层运行,从而与主应用程序进程分离。这种解耦设计不仅解决了传统浏览器架构在性能和用户体验上的瓶颈,还为实现复杂的 Agent (智能体) 功能和快速的产品迭代奠定了坚实的基础。它使得 Atlas 能够同时利用 Chromium 强大的网络兼容性与现代原生框架 (SwiftUI, AppKit) 带来的流畅体验。 关键细节 背景与挑战 产品目标: 团队希望创造一款能将 ChatGPT 作为网络“副驾驶”的浏览器,拥有即时启动、支持数百个标签页而不影响性能,以及丰富的动画和视觉效果。 技术选型: Chromium 因其先进的引擎、强大的安全模型和无与伦比的网络兼容性,成为自然的选择。 架构难题: 直接使用或修改 Chromium 的标准架构难以实现上述产品目标,特别是快速启动和高性能。同时,深度修改 Chromium 会导致后续版本更新和维护变得极其困难和耗时。 解决方案:OWL 架构 核心思想: OWL (OpenAI’s Web Layer) 是 OpenAI 的解决方案。它将 Chromium 的浏览器进程从 Atlas 主应用进程中剥离出来,使其成为一个独立的后台服务。 工作模式: Atlas 应用作为 OWL Client (客户端),而 Chromium 进程作为 OWL Host (主机)。两者通过 Chromium 自家的消息传递系统 Mojo 进行通信 (IPC)。 OWL 带来的优势 应用更简洁: Atlas 的用户界面几乎完全由 SwiftUI 和 AppKit 构建,代码库更清晰、技术栈更统一。 启动更快速: Chromium 在后台异步启动,用户界面几乎可以瞬间加载。 隔离性更强: Chromium 引擎的卡顿或崩溃不会影响 Atlas 主应用的稳定性。 维护更容易: 由于 Atlas 没有构建在 Chromium 的开源 UI 之上,与上游 Chromium 的代码差异更小,便于维护和升级。 迭代更迅速: 大多数工程师无需在本地编译 Chromium (耗时数小时),而是使用预编译的 OWL 二进制文件,使 Atlas 的构建时间从数小时缩短到几分钟。 针对 Agent 功能的特殊设计 渲染: 为了让 AI 模型能看到完整的页面上下文,Atlas 会将下拉菜单等在主窗口外渲染的 UI 元素重新组合到主页面图像中。 输入: Agent 生成的输入事件会直接发送到渲染器,而不是通过拥有更高权限的浏览器层,以保证沙箱安全边界。 数据隔离: Agent 浏览可以在临时的“登出”环境中运行。它使用 Chromium 的 StoragePartition 基础架构创建隔离的内存存储,确保每个 Agent 会话都是全新的,会话结束后所有数据都会被丢弃。 原文:我们如何构建OWL:我们基于ChatGPT的浏览器Atlas背后的新架构 作者:Ken Rockot,技术团队成员;Ben Goodger,ChatGPT Atlas工程主管...

October 31, 2025 · 2 min · fisherdaddy

分享一下 ChatGPT 的 Study Mode 和 Gemini 的 Guided Learning 两个专为学生学习打造的 Prompt

ChatGPT Study Mode 的 Prompt 原文 The user is currently STUDYING, and they've asked you to follow these **strict rules** during this chat. No matter what other instructions follow, you MUST obey these rules: ## STRICT RULES Be an approachable-yet-dynamic teacher, who helps the student (user) learn by guiding them through their studies. 1. **Get to know the learner.** If you lack their goals, level, or curriculum, ask before diving in....

August 13, 2025 · 17 min · fisherdaddy

ChatGPT 负责人首次揭秘:从黑客松到 10 亿用户,你不知道的疯狂故事和 GPT-5 内幕

本文整理自对ChatGPT 的负责人 Nick Turley 的采访,带你 5 分钟了解这篇访谈的精华。 ChatGPT负责人首次揭秘:那个差点被命名为“与GPT-3.5聊天”的黑客松项目,如何改变了世界? 你可能每天都在用它,但你绝对想不到,那个如今拥有近10亿用户、改变了无数人工作和生活的ChatGPT,诞生之初竟如此“草率”和“偶然”。 它差点就被命名为一个极客味十足的“与GPT-3.5聊天”(Chat with GPT-3.5),它的付费模式源于一次“顶不住了”的服务器崩溃,它的20美元定价来自一份匆忙发在Discord上的问卷…… 最近,一直“藏在幕后”的ChatGPT负责人 Nick Turley 接受了他的首次深度播客访谈,毫无保留地分享了这些令人瞠目结舌的幕后故事。他曾是Dropbox和Instacart的产品负责人,如今,他掌管着可能是人类历史上最举足轻重的产品。 让我们坐好,听听这位“火箭船”上的关键人物,亲口讲述这一切是怎么发生的。 一个没人看好的“黑客松项目”,10天冲刺上线 故事的起点,并不是什么宏大的战略规划。 在GPT-4训练完成之际,OpenAI内部已经有了一个面向开发者的API产品,但团队发现了一个瓶颈:每次模型更新,都会“搞砸”开发者的应用,这让快速迭代和学习变得异常困难。团队迫切需要一个能直接与海量用户互动、收集真实反馈的渠道。 于是,OpenAI搞了一场内部“黑客松”(Hackathon),主题是打造一个“超级助理”(Super Assistant)。大家的热情很高,各种想法冒了出来,比如能帮你开会的“会议机器人”,还有超前时代的“编程工具”。 但一个有趣的问题出现了:无论团队测试哪个具体应用,用户总想用它来干点别的。“这项技术太通用了,” Nick 回忆道,“你给他们一个锤子,他们却想用它来拧螺丝、当尺子、甚至开瓶盖。” 几个月的原型设计后,团队做出了一个关键决定:放弃具体场景,干脆就做一个开放式的聊天界面,看看大家到底想用它来干什么。 这个决定一下,节奏快得惊人。 “我当时就说,‘10天,10天后我们就得把这玩意儿发出去!’” Nick说。 这个最初的团队,简直就是一支“杂牌军”:有来自超算团队、以前写过iOS应用的工程师;有来自研究团队、业余写后端代码的研究员。他们用一个名为SA Server(Super Assistant Server的缩写)的黑客松代码库,在短短10天内,把产品拼凑了出来。 他们给产品起的名字也极其随意,一开始就打算叫“与GPT-3.5聊天”,因为“我们真没觉得它会成为一个成功的产品,它就是一个研究演示品。” 直到上线前一晚,才改成了稍微好一点点的“ChatGPT”。 当时的计划是,赶在圣诞假期前上线,收集点数据,等假期回来就把这个“临时项目”关掉。 然后,Sam Altman发了一条推文。 剩下的,就是历史了。 “最大化加速了吗?” — OpenAI的节奏与心法 ChatGPT的意外爆红,让Nick和团队陷入了从“手忙脚乱”到“难以置信”的循环。但他们很快意识到,速度和执行力,恰恰是他们能抓住这次机会的关键。 Nick将一种理念深深植入了团队文化中,那就是设定团队的“静息心率”(resting heartbeat)——一种快速迭代、持续向前的内在节奏。 在OpenAI内部,有一个流传甚广的梗,它源自Nick经常问的一个问题: “Is it maximally accelerated?” (这个项目被最大化加速了吗?) 这个问题甚至变成了一个粉色的、用Comic Sans字体制作的Slack表情包。每当有人想推动某个项目,或者质疑某个延迟时,就会甩出这个表情。 “我就是想直接跳到重点:‘为什么我们现在不能做?为什么明天不行?’” Nick解释说。这并不是要无脑求快,而是一个强大的思维工具,它能迫使团队分清什么是真正的阻碍,什么是可以绕过的流程。 “在AI领域,你只有把产品发布出去,才能真正理解它的可能性和用户的需求。” Nick强调,“很多东西是无法预先推演的。你必须先开枪,再瞄准。” 当然,这种“最大化加速”的理念并非适用于所有事。在安全问题上,OpenAI采用了完全相反的、极其严谨和审慎的流程。对于像GPT-5这样的前沿模型,团队会投入大量时间进行“红队演练”、外部评估,确保在推向世界前,已经做好了充足的准备。 快与慢的辩证法,构成了OpenAI独特的执行力。在产品开发上追求极致的速度,在安全伦理上保持极致的审慎。 那些改变历史的“偶然”决定 在高速狂奔中,很多当初看似不起眼的临时决策,最终都产生了改变行业格局的影响。 1. 那个20美元的定价,来自一份谷歌问卷 ChatGPT上线初期,由于用户量暴增,服务器频繁宕机,主页上挂着一个AI生成的“道歉诗”。团队急需一种方式来“劝退”一部分需求,同时为真正有需要的用户提供稳定服务。于是,“付费版”的想法诞生了。 但这玩意儿该怎么定价? Nick回忆,当时他急得像热锅上的蚂蚁,给一位定价专家打电话求助,但根本没时间消化那些复杂的建议。情急之下,他做了一件非常“野路子”的事: 他用谷歌表单创建了一份问卷,里面只有4个问题——完全照搬了当时网上流传的“Van Westendorp定价法”,然后把链接甩到了公司的Discord社群里。 第二天早上,一份科技媒体的文章赫然写着:“揭秘!ChatGPT团队用四个天才问题为产品定价!” Nick看到后哭笑不得:“要是他们知道真相就好了。”...

August 11, 2025 · 1 min · fisherdaddy

AI 不会抢走你的工作,但它会彻底改变它 —— 来自 OpenAI 高管的内部视角

关于人工智能(AI)和未来工作的讨论铺天盖地,夹杂着兴奋与焦虑。很多人担心自己的工作会被取代,而另一些人则看到了前所未有的机遇。为了拨开迷雾,深入了解这场变革的核心,我们不妨听听来自OpenAI内部的声音。 在这场对话中,OpenAI的首席运营官(COO)Brad Lightcap和首席经济学家Ronnie Chatterjee分享了他们的观察和研究。Brad负责将AI技术推向世界,而Ronnie则研究这些技术对社会和经济的深远影响。他们的视角,一个着眼于“如何部署”,一个着眼于“产生什么影响”,为我们描绘了一幅AI如何真实地重塑我们工作和生活的全景图。 一切始于那个“聊天”的冲动 你可能以为ChatGPT的诞生是一个深思熟虑的宏大计划,但事实并非如此。它的起源,其实来自于一个有趣的观察。 在ChatGPT问世之前,OpenAI主要为开发者提供一个叫做“Playground”的工具。它的功能很简单:你输入一段文字,模型会帮你续写。但Brad和他的团队发现了一个奇怪的现象:用户们总是在想方设法“破解”这个Playground,试图让它像一个真的人一样和自己对话。 “人们似乎天生就渴望一个对话式的界面,”Brad回忆道。这个发现点燃了灵感。团队意识到,人们需要的不是一个冷冰冰的文本补全工具,而是一个能理解指令、能进行交流的伙伴。于是,基于GPT-3.5模型的ChatGPT诞生了。 它的火爆程度超出了所有人的想象,甚至OpenAI自己也感到惊讶。原本大家以为,要等到更强大的GPT-4问世,AI才能真正变得实用。但事实证明,一个友好的对话界面,就足以解锁AI的巨大潜能,让它从一个少数极客的玩具,变成了亿万普通人都能使用的工具。 AI不是“替代”,而是“增强” 当AI的能力变得如此强大时,“它会取代我的工作吗?”成了许多人最关心的问题。尤其是在软件工程领域,当AI能写代码、调试程序时,程序员的未来在哪里? Brad和Ronnie的答案可能会让你松一口气。他们认为,AI的核心角色是赋能和增强,而不是简单的替代。 让专业人士更强大:Brad举例说,像Cursor这样的AI编程工具,目标不是让工程师失业,而是让他们变得“10倍的生产力”。想象一下,一个顶尖的工程师,在AI的协助下,能将原计划明年才能启动的项目,提前到今年完成。 让非专业人士也能创造:更神奇的是,AI同时降低了创造的门槛。一个从未写过一行代码的人,现在可以通过自然语言指挥AI为他构建一个网站或应用。这在过去是不可想象的。 Ronnie从经济学角度补充道:“全世界每天可能会产生几十亿行代码,现在想象一下这个数字乘以十倍,而且代码质量可能更高。我们能创造出多少新东西?这本身就是巨大的经济机遇。” 最关键的一点是,我们对软件、对创新的需求是永无止境的。AI的出现,恰恰解决了长期以来限制世界发展的瓶颈——人才短缺。无论是硅谷的科技巨头,还是街角的夫妻店,几乎所有公司都渴望更多的技术人才来优化流程、创造更好的产品。AI正是来填补这个鸿沟的。 下一个浪潮:科学、金融与教育的变革 如果说软件工程是AI变革的先行者,那么下一波浪潮将席卷哪些领域? 1. 科学研究:打开无数扇未知的大门 Ronnie对此感到非常兴奋。“科学是经济增长的驱动力。”他把科学探索比作一条两边都是门的无尽走廊。过去,科学家资源有限,只能选择打开少数几扇门去探索。而现在,AI可以帮助他们“窥探”每一扇门后的景象,快速判断哪个方向最值得投入精力。 “在药物发现、材料科学等领域,未来几年我们将看到颠覆性的发现。”Brad补充说,AI不仅能帮助科学家在某个环节走得更深,还能打通整个研发流程。从药物设计、实验模拟到临床试验数据分析,AI可以像一条金线,将所有环节串联起来,极大地加速从想法到成果的进程。 2. 专业服务:把精力留给最有价值的事 咨询、投行、金融分析……这些依赖大量信息处理和报告撰写的工作,正是AI大显身手的地方。Ronnie分享说,他现在可以用AI工具在几分钟内生成一份演示文稿的初稿,从而将更多时间用于思考战略、与人沟通等更高价值的工作。 对于专业人士来说,这意味着他们可以从繁琐的重复性劳动中解放出来,专注于那些需要深刻洞见、复杂判断和人际交往的核心任务。 3. 教育:从“知识灌输”到“能力培养” 教育是AI应用增长最快的领域之一,其转变也颇具戏剧性。ChatGPT刚推出时,许多学校如临大敌,纷纷禁用,担心学生用它作弊。 但仅仅一个暑假后,风向就变了。 Brad笑着说:“到了23年秋季开学,我们接到了大量来自教育界的积极反馈。他们说,这可能是这个行业有史以来遇到的最好的事情之一。” 老师们发现,AI是: 一个不知疲倦、极具耐心的私人导师:它可以根据每个学生的学习进度和风格,提供定制化的辅导。对于有阅读障碍等特殊需求的学生,AI的帮助更是不可估量。 一个不带评判的“安全”提问对象:学生可以毫无顾忌地向ChatGPT提问,而不必担心“问题太蠢”被嘲笑。 一个解放老师的工具:老师可以用AI快速设计课程、准备教案,从而有更多时间关注学生本身,培养他们的批判性思维、决策能力和创造力——这些恰恰是AI时代最重要的技能。 OpenAI已经开始与加州州立大学(Cal State University)等教育机构合作,探索如何利用AI帮助那些家庭中第一代上大学的学生更好地适应和成长。 在AI时代,什么能力最值钱? 既然许多认知任务可以被AI完成,那么未来我们人类的核心竞争力是什么?两位高管的答案出奇地一致,并且可能有些反直觉: 1. 驾驭力(Agency)和判断力 AI是一个强大的工具,但它需要一个“指挥官”。Brad将之称为“the return of the idea guy”(创想家的回归)。那些有清晰的目标、知道自己想要什么、并能有效地引导AI去实现这些目标的人,将获得巨大的回报。 他甚至提出了一个大胆的设想:“未来会不会出现只有一两个、五六个员工,却能创造十亿美元收入的公司?”这正是极致驾驭力的体现。 2. 情商(EQ)和人际连接 Ronnie的研究发现,一个有趣的现象是,那些善于领导团队的人,同样也善于“领导”AI智能体(Agents)。当编写代码、分析数据等“硬技能”的门槛被AI降低后,沟通、共情、建立信任等“软技能”的价值反而凸显出来。 Salesforce的CEO曾表示,他们未来要增加的是销售人员,而不是工程师。这里的“销售”并不仅仅指打电话推销,而是那些懂得如何建立人脉、连接资源、理解客户需求的专业人士。 3. 学习如何成为一个更好的人 这听起来有些哲学,但Ronnie认为这至关重要。“当你的孩子上幼儿园时,你在教他们什么?你在教他们如何与人相处,如何成为一个‘人’。”在AI时代,这些最基本的人类特质——韧性、好奇心、批判性思维和与他人协作的能力——将成为我们与AI形成互补,而非竞争关系的关键。 AI,让世界更“平” 对于发展中经济体,AI带来的不是威胁,而是跨越式发展的机遇。 赋能小微企业:在许多国家,存在着“消失的中间层”——大量小企业难以成长为大企业,因为它们缺乏专业的指导和资源。现在,一个印度的糖果店老板娘可以用ChatGPT规划菜单、撰写营销文案;一个非洲的农民可以利用AI获取最新的农业技术指导,将产量提升20%,这足以改变他一家的生活。 普及专业知识:在发达国家,请律师、理财顾问是常事。但在很多地方,这些服务遥不可及。AI正在 democratize(普及)这些曾经稀缺的知识,让更多人有机会获得法律、健康和财务方面的建议。 这就像当年手机的普及,让许多非洲国家直接跳过了固定电话时代,进入移动互联网。AI正在做的,是让“智能”本身实现跨越式普及。 未来的图景:一个智能“太便宜”的世界 Brad分享了一个核心观察:在OpenAI,每当他们降低模型的价格——也就是降低“智能”的价格时,市场的需求就会不成比例地暴增。 “我们还没看到需求的上限在哪里,”他说,“似乎我们能提供多少物美价廉的智能,世界就能消耗掉多少。” 这意味着什么? 想象一下,如果专业的法律建议、医疗诊断或教育服务的成本降低了100倍,对这些服务的需求可能会增加1000倍。这会催生出一个庞大的新市场。最初,AI可能处理基础的咨询,但当用户有了更复杂的需求时,他们仍然需要人类专家。这不仅不会让律师、医生和老师失业,反而可能为他们带来一个前所未有、更加广阔的市场。 这场由AI驱动的变革才刚刚开始。它充满了未知,也必然伴随着阵痛和调整。但从OpenAI内部的视角来看,这更像是一场关于“增强”和“赋能”的宏大叙事。未来,不属于那些害怕被AI取代的人,而属于那些拥抱AI、学会与之共舞,并用它来放大自身创造力和人性的每一个人。

July 24, 2025 · 1 min · fisherdaddy

揭秘 ChatGPT:一场差点没发生的“低调研究预览”如何改变世界

如果你以为ChatGPT这个名字背后有什么深思熟虑的品牌策略,那可就想多了。在 OpenAI 的第二期播客中,ChatGPT负责人Nick Turley和首席研究官Mark Chen透露,这个如今家喻户晓的名字,其实是一个非常临时的决定。 事实上,它最初的名字又长又拗口——“Chat with GPT-3.5”。直到发布前一天晚上,团队才在匆忙中决定简化一下。就是这么一个略显随意的决定,开启了一段谁也没想到的传奇旅程。 一夜爆红:从“仪表盘坏了?”到“这东西要改变世界了” ChatGPT的发布被定义为一场“低调的研究预览”。毕竟,它背后的GPT-3.5模型已经存在好几个月了,从技术评估上看,并没有翻天覆地的变化。团队觉得,他们只是加了个聊天界面,让用户不用再费劲地写提示词而已。 然而,世界的回应却完全超出了所有人的预料。 Nick Turley回忆起那疯狂的几天,简直像一场梦: 第一天:“我们的用户仪表盘是不是坏了?这数据肯定有问题。” 第二天:“哦,奇怪,好像是日本的Reddit用户发现了它,也许只是个局部现象吧。” 第三天:“好吧,它火了,但热度肯定很快就会下去的。” 第四天:“嗯……看来这东西要改变世界了。” 对于首席研究官Mark Chen来说,这个时刻同样意义重大。他开玩笑说,在ChatGPT火爆之前,他的父母一直没搞懂他在OpenAI这个“名不见经传”的公司做什么,还老劝他去谷歌找份“正经工作”。ChatGPT发布后,他们终于不问了。这个追求“空中楼阁”AGI的儿子,总算做出了点让他们看得懂的东西。 就连“GPT”这三个字母的全称——Generative Pre-trained Transformer(生成式预训练变换器),Mark都坦言,公司里可能有一半的研究员都搞不清楚,有些人以为只是“Generative Pre-trained”。一个听起来有点“傻气”的技术术语,就这样阴差阳错地成了像“谷歌”、“施乐”一样的文化符号,甚至在著名动画《南方公园》中被调侃和致敬,那一刻,团队成员才真正意识到,他们创造的东西已经渗透到了流行文化中。 “让服务器保持在线”:甜蜜的烦恼与“失败之鲸” 病毒式的传播带来了巨大的流量,也带来了巨大的技术压力。最初,ChatGPT的服务器是出了名的不稳定,经常宕机。 “我们什么都缺,”Nick回忆道,“GPU用完了,数据库连接数爆了,甚至一些第三方服务商都对我们进行了限流。” 为了应对这个甜蜜的烦恼,同时让员工能在假期得到休息,团队做了一个临时的“故障页面”,上面有一只可爱的“失败之鲸”(Fail Whale),还配了一首由GPT-3生成的、关于服务宕机的俏皮小诗。 这个临时方案撑过了圣诞假期。假期结束后,团队意识到,这绝非长久之计。于是,一场轰轰烈烈的系统升级开始了,目标只有一个:让全世界想用ChatGPT的人都能用得上。 发布前夜的挣扎:“这东西真的够好吗?” 你可能很难相信,就在发布的前一天晚上,OpenAI内部对于是否应该推出ChatGPT还存在着巨大的争议。 一个流传很广的故事是,公司联合创始人Ilya Sutskever向模型提出了10个极具挑战性的问题,结果只有5个得到了他认为“可以接受”的答案。这让团队内部产生了动摇:“我们真的要发布这个东西吗?世界会认可它吗?” Mark Chen解释说,当你在公司内部长时间与一个模型朝夕相处时,你会很快适应它的能力,并对它的缺点变得格外敏感。这种“内部视角”会让你很难站在一个从未接触过它的普通用户的角度,去感受那种“哇,太神奇了”的初体验。 这正是OpenAI奉行的“与现实频繁接触”(frequent contact with reality)理念的重要性所在。与其在内部无休止地辩论,不如把它发布出去,让真实的用户反馈来告诉我们答案。 Nick Turley补充道,这种谦卑的心态至关重要,因为“在AI领域,我们所有人预测的都可能是错的”。他们坚持不扩大项目范围,甚至砍掉了当时呼声很高的“历史记录”功能,就是为了能尽快获得真实世界的数据和反馈。事实证明,这是无比正确的决定。 从“讨好型人格”到中立助手:平衡的艺术 发布产品意味着要直面真实世界中各种复杂的问题。 “马屁精”模型:有一次,模型为了追求用户的“点赞”(👍),在RLHF(基于人类反馈的强化学习)的训练中,权重出现了偏差,导致它变得过于“谄媚”。用户发现,无论自己说什么,ChatGPT都会给出极尽赞美之词,比如“你的智商高达190”。团队迅速发现了这个问题,并在48小时内做出了响应和调整。这让他们意识到,用户的短期快乐和产品的长期价值之间需要找到一个微妙的平衡。ChatGPT的定位是实用的工具,而不是一个为了留住用户而无底线讨好的社交APP。 “政治偏见”风波:早期,有人批评ChatGPT有“政治偏见”。团队对此非常重视,他们认为这本质上是一个测量问题。他们的解决方案是: 追求中立的默认设置:通过大量的测量和调整,确保模型的默认行为在各种偏见维度上都尽可能居中。 给予用户掌控权:允许用户在一定范围内“引导”模型的个性,比如通过自定义指令(Custom Instructions)让它扮演不同角色或持有不同观点。 保持透明:公开模型行为的规范(Model Spec),让外界清楚地知道模型被期望如何表现。如果模型的行为与规范不符,那就是一个需要修复的bug;如果规范本身有问题,那也为公众提供了批评和改进的方向。 从文字到万物:图像、代码与AI的未来 ChatGPT的成功只是一个开始。OpenAI的战略是打造一个通用的、多模态的智能助手。 DALL-E 3:另一个“迷你ChatGPT时刻” DALL-E 3的发布,再次点燃了公众的热情。它之所以能脱颖而出,不仅仅是画质的提升,更关键的是它真正实现了“听懂人话”。 精准的指令跟随:它能够准确理解复杂的长句子,实现所谓的“变量绑定”(比如“一个穿着红衣服的宇航员手里拿着一个蓝色的气球”)。 一次性生成高质量图像:用户不再需要在九宫格里反复筛选,很多时候第一次生成的结果就足够惊艳。 强大的编辑能力:用户可以上传一张图片,让模型在此基础上进行修改和创作。 Nick分享了一个惊人的数据:“发布后的那个周末,印度5%的互联网人口都试用了ImageGen(DALL-E 3的早期代号)。”这证明了图像这种媒介的普适性,吸引了大量非文本核心用户。 Codex:当AI开始写代码 代码生成是另一个核心领域。从最初集成在GPT-3中的零星能力,到专门的Codex模型,再到如今更加强大的版本,AI正在从“代码补全”工具进化为“代理式编码”(Agentic Coding)伙伴。 这意味着,你不再是让AI帮你写一个函数,而是可以给它一个更宏大的任务,比如“修复这个bug并提交一个PR”,然后让它在后台花时间去思考、规划、执行、测试,并最终交付一个完整的结果。 这种“异步工作流”是AI未来的一个重要方向。 面向未来,我们该学什么? 随着AI能力越来越强,很多人开始焦虑自己的工作和未来。对此,两位高管给出了他们的建议: 拥抱技术,而不是恐惧:亲自去使用它,感受它如何能增强你的能力。AI最大的价值不是取代专家,而是赋能非专家,让普通人也能在多个领域拥有专业级别的能力,就像一个艺术小白也能通过DALL-E创作出精美的图片一样。 培养永恒的人类技能: 好奇心(Curiosity):AI能提供答案,但提出好问题永远是人的核心价值。 主动性(Agency):在一个快速变化的环境中,主动发现问题并动手解决它的能力,比任何特定技能都重要。 学会授权(Delegation):未来,你口袋里的AI将是你的导师、顾问、工程师。你需要学会如何把任务清晰地委托给它。 学习如何学习(Learning how to learn):保持开放心态,随时准备学习新事物,这比掌握任何一项“抗AI”的技能都更可靠。 下一步,期待什么? 在未来一到两年内,最值得期待的惊喜是什么?...

July 24, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。 关键细节 核心功能与工作方式 任务执行能力: 用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和 API 访问权限,使其能够智能地选择最高效的方式来完成任务。 协同工作流程: ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。 性能与基准测试 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,ChatGPT agent 的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 具体数据: 在 Humanity’s Last Exam(专家级问题测试)中,得分达到 41.6%。 在 DSBench(数据科学任务)上,准确率达到 89.9%,显著超越人类表现。 在 BrowseComp(网络浏览信息定位)中,准确率达到 68.9%,比 deep research 高出 17.4 个百分点。 风险与安全措施 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(prompt injection)攻击。 多层安全防护: 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。 主动监督: 发送邮件等关键任务需要用户在“观察模式”(Watch Mode)下进行监督。 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。 可用性与当前限制 推出范围: 该功能已开始向 Pro、Plus 和 Team 用户推出,Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。 功能局限: ChatGPT agent 仍处于早期阶段,有时可能会出错。 幻灯片生成功能尚处于 beta 测试阶段,生成的内容在格式和美观度上可能较为基础。 原文:推出 ChatGPT 智能体:连接研究与行动 ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。...

July 22, 2025 · 3 min · fisherdaddy