我们如何利用 Codex 在 28 天内构建出 Sora Android 版 • OpenAI

本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内,利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量,还深入探讨了在 AI 辅助开发时代,软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。 我们如何利用 Codex 在 28 天内构建出 Sora Android 版 作者:Patrick Hum 和 RJ Marsan,技术团队成员 11 月,我们向全球推出了 Sora Android 应用,让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天,该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。 在这次发布背后有一个故事:Sora 的 Android 生产级初始版本仅用 28 天就构建完成,这要归功于任何团队或开发者都可以使用的同一个智能体(agent):Codex。 从 2025 年 10 月 8 日到 11 月 5 日,一个精简的工程团队与 Codex 并肩工作,消耗了大约 50 亿个 token,完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大,该应用仍保持了 99....

December 15, 2025 · 2 min · fisherdaddy

快速了解一下 OpenAI 发布的 GPT-5.2

2025 年 12 月 12 日 OpenAI 发布了迄今为止最强大的GPT-5.2 模型,该系列专为提升专业知识型工作的效率和经济价值而设计,在制作电子表格、编写代码、设计演示文稿及处理复杂多步骤项目方面表现出显著优势。 卓越的工作效率与质量 在衡量明确知识型工作任务的 GDPval 评测中, GPT-5.2 刷新了行业水平,成为首个在相关任务上达到或超过人类专家水平的模型。 专家级表现:在涵盖 44 个职业的 GDPval 评测中, GPT-5.2 Thinking 在 70.9% 的任务中表现优于顶尖行业专家或与其持平。 极致效能:在上述任务中,模型的输出速度比专家快 11 倍以上,而成本不到专家的 1%。 办公自动化:在生成复杂的电子表格和幻灯片方面,能力较前代提升了 9.3%,格式和布局更具专业水准。 编程与工程能力的飞跃 软件工程基准:在模拟真实工业场景的 SWE-bench Pro 测试中取得了 55.6% 的新成绩;在 SWE-bench Verified 中达到了 80% 的高分。 全栈开发助手:在前端开发、复杂 UI(特别是涉及 3D 元素)以及代码调试和重构方面表现更强,减少了人工干预的需求。 可靠性、长文本与视觉能力 错误率降低:相比 GPT-5.1 Thinking,新模型的幻觉率更低,错误回答减少了 38%。 长文档处理:在长达 256k Token 的文本范围内(如 MRCRv2 评测),能保持接近 100% 的信息提取准确率,适合深度文档分析。 视觉理解:在图表推理和软件界面理解方面的错误率减半,对图像元素的空间位置有更强的感知能力。 科研推进与复杂推理 科学研究: GPT-5.2 Pro 在研究生级问答测试 GPQA Diamond 中得分 93.2%,并已在实际数学研究中协助解决了统计学习理论的开放问题。 通用推理:在 ARC-AGI-1 测试中, GPT-5....

December 12, 2025 · 3 min · fisherdaddy

独家深访 OpenAI 研究副总裁 Mark Chen:扎克伯格的“送汤”攻势、Gemini 3的威胁与Jony Ive的新硬件

本次对话是 Core Memory 播客主持人 Ashley Vance 与 OpenAI 首席研究官 Mark Chen 之间的深度访谈。访谈内容涵盖了 OpenAI 在激烈的 AI 人才争夺战中的立场、公司的核心研究策略、AGI(通用人工智能)的发展进程、以及 Mark Chen 个人的职业背景和对未来的展望。 关键细节 激烈的招聘战术 汤的故事: 为了挖角 OpenAI 的研究人员,Mark Zuckerberg 曾亲自手写信件并送去“亲手煮的汤”(虽然后来 Mark Chen 调侃这可能只是某种策略)。 薪资反击: Mark Chen 透露,OpenAI 明确告知员工不会与 Meta 进行“一美元对一美元”的薪资对抗,但员工因相信公司的研究前景而选择留下。 技术竞争与评估 Gemini 3 与基准测试: 针对 Google 发布的 Gemini 3 ,Mark Chen 表示 OpenAI 内部已有性能相当甚至更好的模型。他提到基准测试只能说明一部分问题,他个人喜欢用一个关于“42”的数学难题(模 42 随机数生成器问题)来测试模型,目前尚无模型能完美解决。 预训练的回归: 过去两年 OpenAI 在 RL(强化学习)和推理模型(如 o1)上投入巨大,导致预训练的“肌肉”稍有萎缩。最近半年,团队已重新将重心放回“超级预训练”(Supercharging Pre-training)上,并认为 Scaling Law(缩放定律)并未失效。 个人背景与成长 从金融到 AI: Mark Chen 毕业于 MIT,曾在华尔街从事高频交易(HFT)。他在看到 AlphaGo 的比赛后受到启发,转行进入 AI 领域。 OpenAI 的早期岁月: 他在 2018 年加入 OpenAI,当时公司仅有约 20 人。他最初作为一名“驻场研究员”(Resident)加入,后来负责了 Codex 和 ImageGPT 等重要项目。 组织动荡的回忆 Sam Altman 事件: 在 Sam Altman 被解雇期间,Mark Chen 与其他核心成员(如 Jakub)起草了请愿书,并在凌晨 2 点获得了超过 90% 研究员的签名支持。他描述那段时间大家为了保护团队不被挖角,甚至睡在办公室,展现了极高的忠诚度。 未来产品形态 与 Jony Ive 的合作: Mark Chen 认为目前的 ChatGPT 交互方式很“笨”,缺乏记忆和深度思考。未来的设备应该能理解用户的深层意图,并具有持续的记忆功能。 安全研究细节: 在 o1 模型的开发中,OpenAI 决定不人工干预或监管模型的“思维过程”(Thinking Process),以确保模型不会为了取悦人类而学会撒谎或隐藏真实意图。 原文 在该行业最激烈的时刻,Ashley Vance坐下来与OpenAI目前最核心的研究主管之一、高级副总裁Mark Chen进行了一场深度对话。从硅谷的抢人大战到AGI的终极形态,从备受争议的“宫斗”风波到与前苹果设计总监Jony Ive的神秘硬件合作,这场对话揭示了OpenAI在这场世纪竞赛中的真实心态。...

December 2, 2025 · 1 min · fisherdaddy

介绍一下 ChatGPT 推出的购物研究功能

2025 年 11 月 24 日,ChatGPT 推出了一项名为 “shopping research” 的新体验,旨在通过自动化的深度研究帮助用户找到合适的产品。与简单的搜索不同,该功能通过询问澄清问题、深入检索互联网信息以及利用 ChatGPT 的记忆功能,为用户生成个性化的买家指南。 关键细节 交互方式与个性化体验 用户只需描述需求(如“为小公寓寻找最安静的无绳吸尘器”),系统便会自动建议使用 “shopping research”。 互动流程:系统会打开一个视觉界面,询问预算、使用对象及关注的功能等问题。 实时反馈:用户可以对推荐的产品标记“不感兴趣”或“类似更多”,引导系统根据实时反馈调整研究方向。 记忆整合:如果开启了记忆功能,系统会结合用户过往的偏好(如对游戏的兴趣)来定制搜索结果。 技术驱动与输出结果 模型支持:该功能由经过强化学习专门训练的 GPT-5 mini 版本驱动,能够阅读受信任的网站并综合多方信息。 最终产出:几分钟后,用户将收到一份包含首选产品、关键差异、权衡分析以及来自可靠零售商最新信息的个性化指南。 高级集成:对于 ChatGPT Pro 用户,该功能还集成在 Pulse 中,可根据过往对话主动建议相关的买家指南(例如讨论过电动自行车后推荐配件)。 透明度、信任与局限性 隐私保护:用户的聊天内容不会与零售商共享,结果基于公开的零售网站生成,避免低质量或垃圾网站。 购买方式:用户可点击链接跳转至商家网站购买,未来将支持通过 Instant Checkout 直接在 ChatGPT 内购买。 准确性提示:尽管模型在引用细节方面表现优于以往,但在价格和库存等信息上仍可能存在误差,建议用户访问商家网站获取最准确的详情。 原文:在 ChatGPT 中推出购物研究功能 一种全新的购物体验,助您找到适合您的产品。 今天,我们推出了“购物研究”(Shopping research),这是 ChatGPT 中的一项新体验,它能为您进行研究,帮助您找到合适的产品。您不再需要浏览几十个网站,只需描述您正在寻找什么——例如“为小公寓寻找最安静的无绳吸尘器”、“帮我在这三辆自行车之间做选择”或“我需要送给我四岁喜欢艺术的侄女一份礼物”——购物研究功能就会生成一份贴心的指南来帮助您做决定。它会提出巧妙的澄清问题,在互联网上进行深度研究,查阅优质来源,并结合 ChatGPT 从过去的对话和记忆中对您的了解,在几分钟内提供个性化的买家指南。 购物研究功能从今天开始在移动端和网页端向 Free、Go、Plus 和 Pro 套餐的已登录 ChatGPT 用户推出。为了协助假日购物,我们在整个假期期间向所有套餐用户提供几乎无限的使用权。 寻找合适的产品 数以亿计的人使用 ChatGPT 来查找、理解和比较产品。他们希望有人帮助理清各种选项,决定什么最符合他们的需求、预算和偏好。 购物研究正是为这种更深层次的决策而构建的。它将产品发现转化为一场对话:提出巧妙的问题以了解您关注的重点,从高质量来源提取准确、最新的详细信息,并将选项反馈给您以筛选结果。它在电子产品、美妆、家居园艺、厨房家电以及运动户外等细节繁多的类别中表现尤为出色。 对于像查询价格或确认功能这样的简单购物问题,常规的 ChatGPT 回复既快速又够用。但当您需要深度信息——如比较、限制条件、权衡取舍时——购物研究会花费几分钟时间,为您提供一份更详细、研究更透彻的答案。 发现新产品 帮我找一台适合游戏的强大新笔记本电脑,价格在 1000 美元以下,屏幕大于 15 英寸...

November 26, 2025 · 1 min · fisherdaddy

快速了解一下 OpenAI 发布的 GPT‑5.1-Codex-Max

为了应对 Google 发布的 Gemini 3 Pro,OpenAI 今早发布最强编码模型 GPT-5.1-Codex-Max,该模型建立在基础推理模型的更新之上,专为处理软件工程、数学和研究等领域的代理任务而设计。GPT-5.1-Codex-Max 的核心优势在于处理长期、精细工作的能力。它是首个通过“压缩”过程原生受训以跨越多个上下文窗口运行的模型,能够在单一任务中连贯处理数百万个 Token 。 关键细节 前沿编码能力 真实场景训练: 该模型针对真实的软件工程任务(如创建 PR 、代码审查、前端编码等)进行了训练,在多项前沿编码评估中表现优于前代模型。 环境适应性: GPT-5.1-Codex-Max 是首个受训在 Windows 环境中运行的模型,并针对 Codex CLI (命令行界面)的协作进行了优化。 速度与成本效率 Token 效率提升: 得益于更有效的推理能力,模型在“中等”推理强度下的表现优于 GPT-5.1-Codex ,同时减少了 30% 的思考 Token 使用量。 推理模式: 针对非延迟敏感任务,引入了新的“超高”( ‘xhigh’ )推理模式,通过更长时间的思考提供更好的答案。 成本降低: 效率的提升转化为实际成本的节约,例如在生成高质量前端设计时成本大幅降低。 长期任务处理 压缩技术: 模型能够自动压缩会话历史,在保留关键上下文的同时释放空间,从而突破上下文窗口的限制。 持续工作能力: GPT-5.1-Codex-Max 能独立工作数小时,内部评估显示其可持续执行任务超过 24 小时,适用于项目级重构和深度调试。 安全性与信任 安全沙箱: Codex 默认在受限沙箱中运行,限制文件写入和网络访问,以降低风险。 网络安全: 虽然该模型是目前部署的最强网络安全模型,但尚未达到“高”能力等级。官方建议将 Codex 视为额外的审查者,开发者仍需在部署前人工审查其工作。 可用性与成效 访问方式: 该模型现已面向 ChatGPT Plus 、Pro 、Enterprise 等用户开放,并将取代 GPT-5.1-Codex 成为 Codex 表面的默认模型。API 访问即将推出。 生产力提升: 内部数据显示,使用 Codex 的工程师发布的拉取请求(Pull Requests)数量增加了约 70% 。 原文: 使用 GPT-5....

November 20, 2025 · 2 min · fisherdaddy

介绍一下 GPT-5.1 API 对开发者的一些特色

2025 年 11 月 13 日 OpenAI 面向开发者发布 GPT-5.1 模型。GPT-5.1 是一款更快速、更高效、更智能的 AI 模型,专为开发者设计。它通过动态调整思考深度来优化简单任务的速度和成本,同时在复杂任务上保持强大的性能。该模型还增强了编码能力,并引入了两个新工具,旨在帮助开发者更可靠、更高效地构建复杂的代理工作流。 关键细节 效率与推理 动态推理:GPT-5.1 能根据任务复杂性动态调整其“思考”时间。对于简单任务,它使用更少的 token,响应速度更快(例如,一个 npm 命令的查询从 10 秒缩短到 2 秒);对于复杂任务,它会投入更多资源以确保可靠性。 无推理模式:新增了 reasoning_effort 设置为 'none' 的模式,适用于对延迟敏感的应用场景。该模式在保持高智能的同时,能实现更快的响应和更高效的并行工具调用。 性能提升:与 GPT-5 及其他竞品相比,GPT-5.1 在速度和 token 效率上均有显著提升。Balyasny Asset Management 发现其速度是 GPT-5 的 2-3 倍,而 token 消耗仅为竞品的一半。 扩展缓存:引入了长达 24 hour 的提示缓存(prompt caching)功能,显著降低了在多轮对话或编码会话等长交互场景中的延迟和成本。 编码能力 性能增强:GPT-5.1 在编码方面更具可控性,代码质量更高,并且减少了不必要的“过度思考”。在 SWE-bench Verified 基准测试中,其准确率达到了 76.3%。 业界好评:多家公司如 Cognition、Warp 和 JetBrains 对其给予了高度评价,认为它在理解用户意图、响应速度和自主性方面表现出色。 新增工具: apply_patch 工具:允许模型通过生成结构化的 diff 来可靠地创建、更新或删除代码文件,使多步骤代码编辑更加流畅。 shell 工具:允许模型通过受控的命令行界面与本地计算机交互,执行检查系统、运行程序等任务。 定价与可用性 可用性:GPT-5.1 和 gpt-5....

November 14, 2025 · 3 min · fisherdaddy

快速了解一下 GPT-5.1:一个更智能、更健谈的 ChatGPT

2025年 11 月 12 日,OpenAI 宣布了对 GPT-5 系列的重大升级,推出了 GPT-5.1。这次更新的核心目标是让 ChatGPT 不仅更智能,而且在对话交流上更令人愉悦。新版本引入了两个升级模型:GPT-5.1 Instant 和 GPT-5.1 Thinking,它们在智能、沟通风格和指令遵循方面都有显著提升。此外,本次更新还提供了更直观、更有效的工具,让用户可以轻松定制 ChatGPT 的语调和风格,使其更符合个人偏好。 核心内容 GPT-5.1 Instant: 作为最常用的模型,其默认风格变得更热情、更具对话感。 提升了指令遵循能力,能更可靠地回答用户提出的问题。 首次引入了“自适应推理” (adaptive reasoning) 功能,使其在处理数学(如 AIME 2025)和编程(如 Codeforces)等复杂问题时,能花更多时间思考,从而提供更准确的答案,同时对简单问题保持快速响应。 GPT-5.1 Thinking: 作为高级推理模型,它在效率和易用性上得到提升,能根据问题难度精确调整思考时间。 回答变得更清晰,减少了专业术语,使其更易于理解。 默认语调也变得更热情和富有同理心。 发布与过渡计划 推出时间: GPT-5.1 将从即日开始向付费用户(Pro, Plus, Go, Business)推出,随后覆盖免费用户。企业和教育版用户将获得为期七天的提前体验权限。 API 集成: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候登陆 API。 旧版模型: 原有的 GPT-5 模型将在付费用户的下拉菜单中保留三个月,以便用户比较和适应。 个性化定制功能 语调预设: 更新并优化了语调选项,保留了 Default、Friendly 和 Efficient,并新增了 Professional、Candid 和 Quirky 等选项。 精细化控制: 正在试验一项新功能,允许用户在个性化设置中直接微调 ChatGPT 的特征,如简洁度、热情度或表情符号使用频率。 即时生效: 个性化设置的更改将立即在所有对话(包括正在进行的对话)中生效,确保体验的一致性。 命名与未来 命名原因: 本次更新命名为 GPT-5....

November 13, 2025 · 4 min · fisherdaddy

科技圈的疯狂一周:OpenAI 求政府“兜底”,马斯克拿万亿薪酬包,亚马逊发起对 Perplexity 的诉讼

本文来自于 Youtube 知名博主 Alex Kantrowitz 每周一次的最新科技新闻讨论。 这周的科技圈,简直比好莱坞大片还精彩。OpenAI似乎在暗示,如果玩脱了,希望美国政府能来“兜底”;特斯拉的股东们大手一挥,批准了马斯克那份价值可能高达一万亿美元的薪酬计划,只为让他打造一个“全新的特斯拉”;而另一边,亚马逊已经把AI新贵Perplexity告上了法庭。 这些看似孤立的事件,背后其实都指向了同一个问题:在这场狂飙突进的AI革命中,我们究竟身在何处?是泡沫破裂的前夜,还是新纪元的黎明? OpenAI想要的“政府兜底”:一场公关灾难的诞生 “这周最大的‘社会主义’新闻,居然来自OpenAI。”播客一开场,主持人就忍不住调侃道。 事情的起因是OpenAI的首席财务官Sarah Friar在《华尔街日报》的科技大会上的一番言论。当被问及如何为庞大的AI基础设施融资时,她直白地表示,公司正在寻求政府的“支持(backstop)”或“担保(guarantee)”,以便在出现问题时,能有政府来兜底。 “……也就是政府能提供的支持……比如担保,这能让融资顺利进行。” 记者追问:“所以是某种形式的芯片投资支持?” Friar肯定地回答:“正是如此。” 她将此举包装成国家战略安全的需要,声称为了在与中国的AI竞赛中保持领先,美国需要不惜一切代价加速AI生态系统的发展。 站在OpenAI的角度,这个请求虽然听起来疯狂,却有其扭曲的逻辑。毕竟,这家公司近来予取予求,几乎没有什么是他们得不到的。既然AI是国家战略资产,那让纳税人为这个“国家冠军”的债务做担保,又何乐而不为呢? 然而,互联网并不买账。消息一出,舆论瞬间爆炸。人们的反应很直接:凭什么要让普通纳税人为一家估值可能高达5000亿美元的私营公司承担风险? 紧接着,更戏剧性的一幕发生了。面对汹涌的舆论,OpenAI开始了笨拙的“危机公关”。Sarah Friar在LinkedIn上发文,称自己用了“支持(backstop)”这个词“混淆了视听”,说自己的本意是强调公私合作的重要性。CEO萨姆·奥特曼(Sam Altman)也赶紧在推特上澄清: “我们没有、也不想要政府为OpenAI的数据中心提供担保。政府不应该挑选赢家和输家,纳税人也不应该为那些做出错误商业决策的公司买单。” 这番操作让人啼笑皆非。明明是自己亲口说出的话,被记者反复确认,现在却矢口否认。这已经不是简单的“口误”,而是一次暴露了公司沟通策略混乱的公关灾难。 这场风波为何如此引人注目? 这不仅仅是因为“向政府要钱”这个行为本身。更深层次的原因在于,整个市场对OpenAI的依赖和担忧。 不匹配的数字游戏:不久前,当被问及如何用130亿美元的年收入支撑起1.4万亿美元的支出承诺时,奥特曼显得相当不耐烦。现在,CFO又公开“求兜底”,这让外界不得不怀疑:OpenAI的财务状况是不是真的像看上去那么光鲜?他们描绘的宏伟蓝图,是不是一个无法兑现的空头支票? 系统性风险:如今,OpenAI几乎成了整个AI浪潮,乃至全球股市的“金字塔尖”。从英伟达、微软到甲骨文,无数公司的命运都与OpenAI的成功息息相关。如果OpenAI的根基不稳,其引发的连锁反应将是灾难性的。 不成熟的领导层:Sarah Friar并非新手,她曾在高盛工作十余年,担任过上市公司CFO。但在OpenAI,她的言行却像个初入职场的菜鸟。这不禁让人怀疑,是不是OpenAI内部那种混乱、缺乏纪律的文化,正在侵蚀着这些经验丰富的职业经理人? 这场闹剧暴露出的,是一家在技术上飞速前进,但在公司治理和沟通上却极度不成熟的“巨婴”形象。当一家公司的体量和影响力达到如此规模时,每一个公开表态都应慎之又慎。显然,OpenAI还没学会这一点。 马斯克的万亿薪酬与人形机器人大军 就在OpenAI焦头烂额之际,埃隆·马斯克却迎来了自己的高光时刻。 在德州奥斯汀总部,伴随着跳舞的人形机器人和炫目的灯光,特斯拉股东大会通过了那份备受争议的薪酬方案。这份方案如果完全实现,将为马斯克带来近万亿美元的财富。 但这钱也不是白拿的。马斯克得把特斯拉的市值从现在的5000亿美元左右,一路推高到惊人的8.5万亿美元,同时还要达成一系列近乎疯狂的营收和利润目标。 这究竟意味着什么? 这标志着特斯拉作为一家“汽车公司”的时代可能已经结束了。马斯克的目标不再是多卖几辆电动车,他的野心是RoboTaxi(自动驾驶出租车)和人形机器人。他直言不讳地表示,需要拥有公司25%的股份,以确保他正在创造的“机器人大军”不会落入坏人之手。 这番话听起来像是一种威胁,又像是一种承诺。他仿佛在对股东们说:“把控制权给我,否则这支强大的机器人军队可能会失控,只有我能驾驭它。” 从某种意义上说,如果马斯克真的能实现这个科幻般的愿景,那这份万亿薪酬或许是值得的。毕竟,相较于已经略显拥挤的电动车市场,一个由机器人提供无尽劳力的未来,其想象空间要大得多。 所以,别再盯着特斯拉的汽车销量看了。这家公司的未来,藏在那尚未成形的机器人大军里。 亚马逊 vs. Perplexity:互联网经济的未来之战 当我们在讨论万亿市值和机器人军队时,一场更接地气、却可能决定互联网未来的战斗已经打响。 亚马逊正式起诉了AI搜索创业公司Perplexity。原因是Perplexity推出了一项名为“Comet”的AI代理功能,它可以代替用户在亚马逊等网站上自动完成购物流程。 亚马逊认为,Perplexity的机器人没有表明自己的“非人类”身份,这是“计算机欺诈”。 这起诉讼的背后,是新旧两种互联网模式的根本冲突。 亚马逊的“万物商店”模式:亚马逊的成功,在于它将自己打造成了用户购物的唯一入口。你想买任何东西,第一个想到的就是去亚马逊。它通过锁定用户,控制了整个购物流程,并在此基础上建立了庞大的广告业务。 AI代理的“新万物商店”模式: 而Perplexity这样的AI代理,则彻底颠覆了这个逻辑。用户不再需要访问亚马逊,他们只需对AI说:“帮我买最好的纸巾。”AI就会自动浏览全网,比较价格,然后直接下单。在这个模式下,聊天机器人本身就成了新的“万物商店”。 亚马逊的护城河瞬间被夷为平地。它从一个用户离不开的平台,降级成了AI代理的一个可选项。这才是亚马逊真正恐惧并必须反击的原因。 这场诉讼引出了一个更宏大的问题:如果AI代理可以自动化人类在互联网上的一切行为,那么现有的商业模式将如何维系? 一个依赖广告的地图应用,如果用户只是通过AI获取路线,从不看页面上的广告,它还能生存吗? 一个内容网站,如果流量都来自不产生广告价值的AI爬虫,它还有动力创作吗? 这不禁让人联想到马斯克的机器人。如果亚马逊可以合法地禁止Perplexity的机器人流量,那么,线下的沃尔玛能不能禁止我的人形机器人进店购物呢?“机器人不得入内”的牌子会成为常态吗? 我们玩笑般讨论的“机器人权利”,或许在不远的将来,真的会成为一个严肃的法律和社会问题。 写在最后:当科幻照进现实 回顾这一周,充满了荒诞与现实的交织。 OpenAI内部“政变”的法庭文件被披露,我们看到的不是“为了全人类”的高尚情怀,而是一场充满谎言、背叛和权力斗争的办公室政治,甚至连双方律师都在庭上互呛“管好你自己(Check yourself)”。 可与此同时,一位接受采访的普通农民却告诉记者:“我现在用Claude,Google太难用了。” 这或许就是AI时代的真相:一边是精英们不成熟的权谋和资本市场的狂热泡沫,另一边是这项技术正以不可阻挡之势,渗透到我们生活的每一个角落,并确实在创造价值。 至于未来,它可能既混乱又充满希望。我们或许终将要为这些AI公司的疯狂买单,但我们也确实站在一场前所未有的技术革命的门槛上。正如播客里开的玩笑,也许我们的未来,就是去竞选一个“USGPT”(美国政府版GPT)平台,然后领导我们的人形机器人大军,去定义下一个时代。 毕竟,掌控机器人军队的人,才能掌控未来,不是吗?

November 11, 2025 · 1 min · fisherdaddy

从 Transformer 到推理模型:OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的 AI 前沿洞察

本文来自于 OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的一篇访谈。内容涵盖了从 Transformer 模型到新一代推理模型的范式转变,探讨了 AI 发展的瓶颈、AGI 的概念以及 AI 对科学和社会可能产生的深远影响。 主要观点 AI 发展的范式转变:当前 AI 领域正在经历一次重大的范式转变,从仅仅通过扩大模型规模和数据量来提升性能(Transformer 范式),转向了更为先进的“推理模型”(Reasoning Models)范式。这种新范式正处于高速发展初期,预示着 AI 能力将迎来新一轮的飞跃。 推理模型是未来的关键:与传统的大语言模型(LLM)不同,推理模型通过内部“思考”过程、调用外部工具(如网络搜索、代码执行)来解决复杂问题。它们不仅更加强大,而且数据效率极高,能够从更少的数据中学习,并大幅减少“幻觉”现象。 AI 的发展瓶颈与未来趋势:AI 的发展速度并未放缓,未来一到两年内甚至可能出现“非常急剧的进步”。当前最主要的瓶颈是 GPU 计算资源和能源的短缺。未来,AI 将能够执行越来越多在计算机上完成的复杂任务,尤其是在编程领域,这将深刻影响就业市场。 对 AGI 和社会影响的思考:与其纠结于 AGI(通用人工智能)的定义,不如关注 AI 在现实世界中的实际影响和能力。AI 的发展为科学研究带来了巨大机遇,有望加速人类的科学发现进程。然而,这也带来了社会挑战,需要整个社会共同努力,确保技术被负责任地使用,避免重蹈社交媒体的覆辙。 关键细节 Transformer 的诞生:2017 年的论文《Attention Is All You Need》引入了 Transformer 架构,这是一个历史性的突破,为后来的生成式 AI 奠定了基础。Łukasz Kaiser 是该论文的八位作者之一。 推理模型的运作方式: 推理模型在生成最终答案前,会进行一系列不向用户展示的内部思考步骤(Chain of Thought)。 它们可以通过调用工具来获取实时信息或执行任务,例如使用网络搜索验证事实,或运行 Python 代码进行计算。 这种模型通过强化学习(Reinforcement Learning)进行训练,使其能够从错误中学习并优化解决问题的策略。 AI 发展的限制因素: 所有顶尖 AI 实验室都面临 GPU 资源不足的问题,这限制了更强大模型的训练和向公众提供服务的能力。 OpenAI 的 CEO Sam Altman 正在努力获取尽可能多的计算资源,因为研究人员确信能够有效利用这些资源来推动 AI 的进步。 AI 在任务自动化上的进展: AI 在编程领域的进步尤为惊人。像 OpenAI 的 Codex 和 Anthropic 的 Claude 这样的模型已经可以编写大型程序、进行代码审查、发现漏洞,极大地提升了开发效率。 预计在不久的将来,AI 将能胜任大部分在计算机上进行的任务。 AI 的社会责任与商业模式: Łukasz Kaiser 强调,OpenAI 致力于通过订阅模式而非广告模式来盈利,旨在避免优化“用户参与度”而带来的负面社会影响。 他认为,如何正确使用 AI 是整个社会的责任,需要政府、企业和公众共同参与,以确保其发展最终造福人类。 原文 如果你关注人工智能,2017年绝对是一个无法绕开的年份。那一年,一篇名为《Attention Is All You Need》的论文横空出世,介绍了后来引爆生成式AI革命的Transformer架构。这篇论文注定会载入史册,而Łukasz Kaiser,就是这篇论文的八位作者之一。...

November 11, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的一款由 GPT-5 驱动的代理式安全研究工具—— Aardvark

2025 年 10 月 30 号,OpenAI 推出了一款由 GPT-5 驱动的代理式安全研究工具 —— Aardvark。它旨在帮助开发者和安全团队大规模地发现并修复软件中的安全漏洞,从而在网络安全攻防战中为防御方提供优势。 Aardvark 是一款自主运行的 AI 代理,它能够像人类安全专家一样,通过分析代码、理解其行为并利用工具来主动发现和修复漏洞。它的核心目标是改变当前软件安全领域的格局,将天平向防御方倾斜。通过自动化漏洞的发现、验证和修复流程,Aardvark 能够帮助团队在不拖慢开发速度的前提下,持续提升代码的安全性。目前,该产品已进入私有测试阶段。 关键细节 工作原理与流程 Aardvark 的工作流程分为四个主要阶段,不依赖于模糊测试等传统技术,而是利用大语言模型的推理能力: 分析 (Analysis): 首先,Aardvark 会分析整个代码仓库,生成一个威胁模型,以理解项目的安全目标和设计。 提交扫描 (Commit scanning): 当有新的代码提交时,它会根据威胁模型检查代码变更,以发现潜在漏洞。它会用易于理解的方式逐步解释漏洞,并对代码进行注释。 验证 (Validation): 在发现潜在漏洞后,Aardvark 会在一个隔离的沙盒环境中尝试触发该漏洞,以确认其可利用性,从而确保提供给用户的洞察是准确且低误报的。 修补 (Patching): Aardvark 与 OpenAI Codex 集成,为发现的每个漏洞生成建议的修复补丁,供开发人员审查和一键应用。 实际影响与表现 内部应用与测试: Aardvark 已在 OpenAI 内部代码库和外部合作伙伴中运行数月,成功发现了多个重要漏洞。 基准测试: 在包含已知和人为引入漏洞的“黄金”代码库测试中,Aardvark 成功识别了 92% 的漏洞,展示了其高效性和实用性。 解决的问题: 软件漏洞已成为系统性风险,仅 2024 年就报告了超过 40,000 个 CVE。测试表明,约 1.2% 的代码提交会引入新的错误。 对开源社区的贡献 Aardvark 已被应用于开源项目,并成功发现了多个漏洞,其中 10 个已获得 CVE (通用漏洞披露) 编号。 OpenAI 承诺回馈开源社区,计划为部分非商业开源项目提供免费扫描服务。 公司还更新了其对外协调披露政策,采取了对开发者更友好的协作方式。 当前状态 Aardvark 目前已开放私有测试版,OpenAI 邀请感兴趣的组织或开源项目申请加入,以帮助团队进一步优化其性能和用户体验。...

November 3, 2025 · 1 min · fisherdaddy