介绍一下 Google 的最新视频生成模型 Veo 3.1

Google 在 2025 年 10 月 15 日发布了其最新视频生成模型 Veo 3.1。我们来快速了解一下其更新内容。此次更新的核心在于提升了模型的视频生成质量和创作灵活性。主要改进包括更丰富的原生音频、对电影风格更好的理解以及更强的图像到视频转换能力。同时,还推出了三项全新的创意功能:允许用户通过参考图像指导视频生成、扩展现有视频以创作更长的内容,以及控制视频的首尾帧来生成平滑的过渡场景。 模型的核心改进 音频质量提升: Veo 3.1 能够生成更丰富的原生音频,包括自然对话和与画面同步的音效。 叙事控制增强: 模型对电影风格的理解得到改善,让创作者能够更好地控制视频的叙事节奏和视觉风格。 图像转视频优化: 提升了根据提示词生成视频的准确性,保证了更好的音视觉质量,并能在多个场景中保持角色的一致性。 三大全新创意功能 ‘Ingredients to video’ (参考图像生成): 用户可以提供最多 3 张参考图像(如角色、物体或场景),来指导视频的生成过程。这有助于在多个镜头中保持角色的一致性或应用特定的艺术风格。 ‘Scene extension’ (场景扩展): 该功能允许用户扩展已生成的视频,通过在前一个视频的最后一秒基础上生成新片段,从而创作出长达一分钟或更长的视频,并保持视觉上的连续性。 ‘First and last frame’ (首尾帧控制): 用户可以提供一个起始图像和一个结束图像,Veo 3.1 能够在这两个图像之间生成一个平滑、自然的过渡视频,并配有相应的音频。 应用案例与可用性 实际应用: Promise Studios 正使用 Veo 3.1 增强其生成式故事板和预可视化流程;Latitude 则在其实验性的生成式叙事引擎中集成了该模型。 获取方式: Veo 3.1 及其新功能现已通过 Gemini API 在 Google AI Studio 和 Vertex AI 中提供付费预览。开发者可以通过官方文档、新的演示应用 Veo Studio 或代码示例快速上手。 定价: Veo 3.1 的定价与 Veo 3 保持一致。

October 17, 2025 · 1 min · fisherdaddy

Heygen 创始人 Joshua Xu:在 AI 时代,HeyGen 的构建之道

本文翻译自 HeyGen 创始人 Joshua Xu 在2025 年 10 月 17 日 发布的一篇 HyeGen 团队的工作法则。他发这篇文章正直 HeyGen ARR 达到 1 亿美元之际,距离 2023 年 4 月首次达到 100 万美元仅过去 29 个月。HeyGen 团队在 AI 时代的工作法则,核心总结下来有以下几点: 拥抱不稳定性。主动适应 AI 技术每隔几个月就发生一次的突破性进展 速度即品质。快速行动是为了更快的学习,通过比对手快 5 倍的实验,实现长期的卓越品质和用户价值。 学习速度决定成败。在 AI 时代,学习最快的团队才能获胜。 专注解决真实问题。 想要了解进一步的细节请继续阅读以下我对其原文的中文翻译。 我们如何驾驭浪潮,快速发布,并在不稳定的世界中取胜 我们在构建什么 前言 第一部分:核心理念 第二部分:我们的节奏 第三部分:运营原则 第四部分:团队结构与通用原则 第五部分:核心产品团队 第六部分:增长产品团队 第七部分:沟通协议 第八部分:需要避免的反模式 第九部分:在战争时期取胜 结论 我们的使命:让视觉叙事普及大众。 我们将视频分为两类: 沟通类视频 — 业务更新、教程、访谈、播客、解说视频。这些视频旨在解释、告知或沟通。(最适合基于脚本的编辑。) 电影级视频 — 高制作水平的广告、电影、音乐视频、预告片、高端品牌内容。这些视频旨在感动、启发或娱乐。(最适合时间线编辑。) 我们的重点是让沟通类视频对每个人都触手可及。当我们说每个人时,我们指的是从新手到专业人士的各种技能水平。我们的产品足够简单,任何人都能在几分钟内制作出高质量的视频。 传统的软件开发已经死亡。曾经稳固的基础现在在我们脚下动摇。在AI时代,每隔几个月就有突破性进展,昨天的极限变成了明天的默认配置。 在HeyGen,我们不与这种不稳定性抗争。我们驾驭浪潮。我们整个开发理念都围绕着驾驭AI的进步,而不是去寻找已不复存在的稳定技术基础。 这本书记录了我们如何思考、构建和取胜。它写给每一位HeyGen团队成员——工程师、设计师、产品经理——以及那些想加入我们的人。这就是当基础在我们脚下不断变化时我们如何工作,以及我们如何将这种不稳定性转化为我们的竞争优势。 “快速行动,做到最好。驾驭AI浪潮,拥抱研究的不确定性,提前六个月下注,并构建能够随着模型改进而自我升级的灵活产品,同时不牺牲质量。” 在AI时代,我们在没有稳定技术基础的情况下运作。每隔几个月,AI技术就会发生巨大变化。模型的能力是未知的,并且在迅速变化。 我们正处在一个百年一遇的技术窗口期。在接下来的12个月里,AI代表了我们这一代人的战时机遇。我们有机会打造下一个谷歌或Facebook。机会正在此刻爆发。我们应该将强度调至最高水平。这是每个人加入HeyGen的原因,也是我们在这里的原因。 关键区别: 当我们说“拥抱不稳定性”时,我们指的是底层的AI技术基础——模型、能力、研究突破。我们绝不接受我们的服务正常运行时间、产品质量或用户体验的不稳定性。即使我们脚下的AI技术基础不断变化,我们的产品也必须保持坚如磐石的可靠性。...

October 17, 2025 · 3 min · fisherdaddy

2025 AI 状况报告深度解读:从“超级智能”竞赛到全球博弈,一文看懂 AI 新格局

本文概述了《2025 年人工智能状况报告》的核心内容,该报告是第八次年度发布,旨在追踪人工智能领域的最新进展。报告从研究、产业、政治和安全四个维度,全面分析了过去一年中 AI 领域的重大突破、商业应用、地缘政治动态以及日益凸出的安全挑战。 过去一年,人工智能领域在技术能力、商业化和全球影响力方面都取得了飞速发展。研究层面,具备“先思考后回答”能力的推理模型成为前沿,而中国开源模型的崛起重塑了全球生态。产业层面,AI-first 公司的收入规模已达数百亿美元,算力竞赛推动了对能源和定制芯片的巨大需求,形成了复杂的资本循环。政治层面,中美之间的 AI 竞赛愈演愈烈,美国转向“美国优先”的 AI 出口战略,而中国则加速技术自给自足;同时,“主权 AI”概念兴起,吸引了大量国家级投资。安全层面,AI 带来的风险日益具体,从网络安全到生物风险,各大实验室开始部署前所未有的防护措施,但“对齐欺骗”等深层问题的发现也揭示了现有技术的脆弱性。 概要 研究进展 推理模型的竞赛与挑战: 以 OpenAI 的 o1 和 GPT-5、DeepSeek 的 R1 为代表的推理模型成为焦点,它们通过“思考”过程提升了在代码、科学等复杂领域的表现。 然而,研究表明当前的推理能力提升可能存在“虚幻”成分,模型表现对提示词、解码参数等微小变化高度敏感,且容易在无关信息的干扰下出错。 开源生态的演变: 以 DeepSeek 和阿里巴巴 Qwen 为首的中国开源模型迅速崛起,其性能和多样性吸引了全球开发者,Qwen 在 Hugging Face 上的衍生模型数量已超越 Meta 的 Llama。 OpenAI 时隔数年发布了首个开源模型 gpt-oss,以响应美国政府推动开源领导力的号召。 世界模型与科学发现: AI 从生成固定的视频片段(如 Sora 2)发展到可实时交互的“世界模型”(如 Genie 3),为训练具身智能体提供了强大平台。 AI 在科学发现中扮演了更重要的角色,例如 DeepMind 的 AlphaEvolve 发现了新的矩阵乘法算法,而 MatterGen 等模型则实现了从预测材料性质到直接生成新材料的跨越。 产业动态 商业化与收入规模: AI-first 公司的商业化进程显著加速,头部 16 家公司的年化总收入已达 185 亿美元。企业对 AI 的付费采用率从 2023 年的 5% 飙升至 2025 年的 43....

October 11, 2025 · 2 min · fisherdaddy

又一次,我们没能理解指数增长

本文是 Anthropic AI 研究院 Julian Schrittwieser 所写,其主要观点是当前公众和许多评论员未能认识到人工智能(AI)正处于指数级增长阶段。人们常常因为当前 AI 模型的局限性而错误地断定其发展已停滞或影响有限,而忽略了其能力在极短时间内取得的飞跃式进步。 主要观点 普遍的误解:人们普遍低估了 AI 发展的指数级速度。他们关注于当前 AI 模型的错误和不完美之处,从而得出其发展已达瓶颈的错误结论,而忽视了其背后持续且迅速的能力增长趋势。 指数级增长是现实:作者引用多项研究证明,AI 在软件工程和跨行业通用任务上的能力正遵循着清晰的指数级增长曲线,并且这种趋势没有放缓的迹象。 未来预测:基于当前的发展趋势进行推断,AI 将在未来几年内对经济产生颠覆性影响。作者预测,到 2026 年中,AI 将能自主完成长达 8 小时的工作任务,并在 2026 年底在多个行业中达到人类专家的水平。 关键细节 METR 研究: 一项名为 “Measuring AI Ability to Complete Long Tasks” 的研究,专注于衡量 AI 模型自主完成软件工程任务的能力。 研究结果显示出一条明显的指数增长曲线,能力的“倍增”周期约为 7 个月。 最新的模型如 Grok 4、Opus 4.1 和 GPT-5 的表现不仅验证了这一趋势,甚至略高于预期,已能处理超过 2 小时的任务。 GDPval 评估: 由 OpenAI 发起,旨在评估 AI 在更广泛经济领域中的应用能力,涵盖了 9 个行业的 44 个职业。 评估任务由平均拥有 14 年经验的行业专家提供,总计 1320 项任务。 结果再次显示了类似的增长趋势。值得注意的是,Claude Opus 4....

October 5, 2025 · 1 min · fisherdaddy

Sora:生成式视频的“ChatGPT时刻”

本文是 OpenAI 前技术员工,OpenAI 播客主持人 Andrew Mayne 对 Sora 2 的观点。这个观点我比较认同,我认为 Sora 2 是视频领域的 ChatGPT 3.5 时刻,它不是 TikTok 的替代品,更不会是昙花一现的产品。 另外,我猜字节不出 3 个月在国内推出一个类似的产品,又要开始抄起来了。有人说可能字节有即梦,但 Sora 和即梦完全是两类不同定位的产品,前者偏娱乐社交,后者偏专业工具。再多说一句字节这家公司,如果你仔细看doubao 的模型能力和产品功能就会发现一些端倪,他们模型路线对标 Gemini,产品路线对标 OpenAI。 以下是Andrew Mayne 文章的原文翻译,建议读一读,算是比较中立和客观的观点: Sora 2 的 ChatGPT 时刻 72 小时前,OpenAI发布了Sora,这是一款仅限受邀用户使用的应用程序,但它已经登上了苹果应用商店的榜首。仅仅三天,它就改变了我以及许多其他人——在网上消磨时间的方式。就我个人而言,这周我在Sora上花的时间比我这辈子花在TikTok上的总时间还多。也超过了过去一年里花在Instagram上的时间。 这种时间上的转变很能说明问题。这不仅仅是新奇感;它感觉像是人们创作和消费视频方式的一个新重心。 Sora为何与众不同 将Sora的发布与ChatGPT相提并论的说法随处可见,而且很中肯。回想当初——即使在OpenAI内部——我们也不知道ChatGPT会变成什么样。两年半后,Sora正散发出同样的气息。 有几点让它脱颖而出: 质量与速度。 生成视频需要几分钟时间,但保真度惊人。在等待时,你可以浏览其他同样出色的视频片段。这段等待时间也成为了体验的一部分。 客串模式(Cameo mode)。 你可以生成一个与自己或朋友惊人相似的形象,并直接将其放入场景中。这让“应用”和“平台”之间的界限变得模糊。它不仅仅是视频生成,更是协作式的个人化叙事。 真实感的飞跃。 一年前,我们还在嘲笑六指手和呆滞的眼神。那些都已成为过去。现在,我用朋友的形象制作的视频中,唯一能看出是AI生成的痕迹,就是我把他们放进的荒诞情境里。 它让人上瘾,但不同于TikTok或Instagram那种令人陷入无限刷屏的负循环。它很有趣,富有实验性,并且在最纯粹的意义上充满了“生成感”。 早期的文化涟漪 我每天花在Sora上的两个小时,通常是用来刷X或YouTube的时间。并非只有我如此。如果这种模式规模化,对注意力经济的影响可能是颠覆性的。 还有其他值得注意的文化信号: 版权灰色地带。 OpenAI对用户使用可识别的知识产权(IP)持宽松态度。其中大部分是戏仿,这在法律上或许站得住脚——但我们最终将面临法庭诉讼。就目前而言,这种自由正在激发创造力和病毒式传播。 领导者的表率。 Sam Altman公开允许任何人使用他的肖像。发布两天后,信息流中充斥着关于Sam的笑话——有些是善意的,有些则很尖刻。现在,随着人们探索更广泛的创意,这种比例正在趋于平衡。这要归功于他的积极参与。这传递出一个明确的信息:在这个新世界里,抗拒是徒劳的。不如拥抱它。 前路展望 目前,Sora的视频片段上限为10秒。更长的故事板,就像网页版上已有的功能一样,即将推出。即使只是延长到60秒,也将解锁一个全新的叙事层面——并让这款应用更具粘性。 经济因素同样重要。创作比消费的成本更高。大多数人会成为创作者,还是会浏览少数创意人士产出的无尽信息流?这个比例将决定Sora给人的感觉是像TikTok、YouTube,还是某种全新的事物。 一个颠覆性的时刻 有人认为Sora的新鲜感会很快消失。我不同意。我已经不止一次被那些短剧和巧妙的场景逗笑了,这些场景本可以很容易地用真人实景拍摄,但现在用AI在几分钟内就生成了。 这感觉不像一个玩具,更像是YouTube的早期——那时,版权纠纷、怪异的实验和新的声音相互碰撞,形成了一种文化无法忽视的力量。 Sora就是这样一个时刻。它是媒体制作、分享和消费方式的一个转折点。我们回顾这次发布时,或许会像回顾ChatGPT一样:认为它就是未来悄然成为现实的那个时间点。 超越应用本身:视频生态系统的震荡 这里的故事不仅仅是Sora是一款令人上瘾的新应用,更是它重塑了整个视频生态系统的竞争格局。 在过去两年里,投资者向那些承诺提供AI驱动的虚拟形象、合成主持人以及可定制视频内容的初创公司投入了大量资金。这些公司中,许多都建立在一个假设之上:它们拥有OpenAI尚未跨越的技术护城河。 那条护城河已经消失了。 Sora的发布已经超越了数十家初创公司一直宣传的核心优势。整个商业模式——有些是围绕定制虚拟形象,有些是围绕缓慢昂贵的渲染流程——现在都岌岌可危。上个月看起来还是一个可防御的利基市场,如今突然变成了一款免费移动应用中的一个商品化功能。 对于任何密切关注OpenAI的人来说,这个结果并不令人震惊。时间点可能比预期的要早,但发展方向是明确的。生成式视频绝不会长期掌握在少数精品工作室手中。现在它已成为主流,对生态系统中其他参与者的冲击将是残酷的。

October 5, 2025 · 1 min · fisherdaddy

强化学习之父 Richard Sutton 开炮:LLM 走偏了,真正的 AI 要从经验中学习

本文来自于 Youtube 博主 Dwarkesh Patel 对强化学习(Reinforcement Learning)先驱 Richard Sutton 的访谈,核心内容围绕强化学习与大语言模型(Large Language Models)在构建人工智能(AI)方面的根本性差异,以及对 AI 未来的展望。 主要观点 强化学习与大语言模型的根本区别:Richard Sutton 认为,强化学习 (RL) 是关于智能体通过与世界互动、从经验中学习以实现目标的“基础 AI”。相比之下,大语言模型 (LLM) 本质上是模仿人类生成的文本,它们缺乏真实的世界模型、实质性的目标以及从实时互动中学习的能力。 “经验”是智能的核心:Sutton 强调,真正的学习来自于“经验”——即采取行动并观察后果。动物和人类主要通过这种试错法学习,而非模仿。他认为,当前 AI 系统普遍缺乏这种哺乳动物都具备的持续学习能力。 “惨痛的教训” (The Bitter Lesson) 的启示:Sutton 指出,AI 发展的历史表明,那些利用海量计算和从经验中学习的通用方法,最终会胜过依赖人类知识构建的系统。他认为,尽管 LLM 规模庞大,但它们严重依赖人类数据,未来可能被能直接从经验中学习的、更具可扩展性的系统所超越。 对 AI 继承的积极展望:Sutton 认为,人类向数字智能或增强人类的“继承”是不可避免的。他将此视为宇宙从“复制”智能(如生物)到“设计”智能的重大转变,并认为人类应为此感到自豪,视其为我们的“后代”。 关键细节 强化学习 (RL) 与大语言模型 (LLM) 的对比 世界模型:Sutton 反对 LLM 拥有真正世界模型的观点。他认为 LLM 只是在模仿人类如何谈论世界,而不是理解世界本身。它们预测的是“一个人会说什么”,而不是“世界会发生什么”。 目标与奖励:真正的智能需要有目标。RL 中的“奖励”为智能体提供了明确的目标和判断行动好坏的“基本事实” (ground truth)。而 LLM 的“下一个词元预测”并非一个与外部世界交互的实质性目标,因此缺乏学习的根本依据。 学习方式:LLM 从固定的训练数据中学习,这在它们的“正常生命”中是无法获得的。而 RL 智能体则在与环境的持续互动中学习,能够不断调整和优化其行为。Sutton 认为,将 LLM 作为 RL 的“先验知识”起点是错误的方法,因为它会使研究者陷入“人类知识”的思维定式中。 “惨痛的教训” (The Bitter Lesson) 与可扩展性 Sutton 在 2019 年的文章《The Bitter Lesson》中指出,利用大规模计算的通用学习方法最终会胜出。 他认为 LLM 依赖于有限的互联网文本数据,而能够直接从经验中获取数据的系统拥有无限的潜力,因此更具可扩展性。最终,后者将超越前者,成为“惨痛的教训”的又一个例证。 对未来的展望 持续学习智能体:未来的通用 AI 应该是一个持续学习的智能体,它拥有四个关键组成部分:策略(policy)、价值函数(value function)、状态表征(state representation)和世界转换模型(transition model)。 AI 继承的必然性:Sutton 提出了一个四步论证来支持 AI 继承的必然性:1) 人类缺乏统一的全球共识;2) 我们终将理解智能的原理;3) AI 的发展不会止步于人类水平;4) 最智能的存在最终会获得资源和权力。 从“复制”到“设计”:他将这一转变视为宇宙演化的一个重要阶段,即从通过繁殖进行“复制”的智能,演变为我们能够理解并主动“设计”的智能。他鼓励人们以积极的心态看待这一未来,并将其视为人类文明的延续和成就。 文章原文 如果你关注人工智能,你一定会被大语言模型(LLM)的惊人能力所震撼。但就在整个行业为生成式AI狂欢时,一位“AI领域的奠基人”却冷静地提出了截然不同的看法。...

September 28, 2025 · 1 min · fisherdaddy

AI 是否是泡沫? • Azeem Azhar

本文来自于 Azeem Azhar 写的一篇文章: Is AI a bubble?。这里也介绍一下 Azeem Azhar,他是《指数时代》畅销书作者、前 BBC 与《经济学人》科技记者,创立了全球知名科技与未来趋势智库 Exponential View。 本文探讨了当前的人工智能(AI)热潮是否构成投资泡沫。作者没有直接给出“是”或“否”的答案,而是建立了一个包含五个关键指标的分析框架,通过与历史上的铁路、电信和互联网(dot-com)泡沫进行比较,来评估当前 genAI 领域的健康状况。 主要观点 作者的核心论点是,尽管 AI 领域的投资规模巨大且增长迅速,但目前它更像一个由强劲需求驱动的“资本密集型繁荣期”,而非一个即将破裂的“泡沫”。当前的繁荣主要由资金实力雄厚的科技巨头(hyperscalers)推动,其估值和收入增长等关键指标尚未达到历史上泡沫破裂前的极端水平。然而,作者也指出了几个潜在的风险点,如果这些风险恶化,繁荣可能会迅速演变成泡沫。 关键细节 作者使用了一个包含五个“仪表盘”的框架来衡量 AI 繁荣的健康度,每个仪表盘都有绿色(健康)、琥珀色(警告)和红色(危险)三个状态。 经济压力 (Economic Strain) - 状态:绿色 指标:投资额占 GDP 的比重。 现状:预计 2025 年全球投入数据中心的资金约 3700 亿美元,其中美国约占 0.9% 的 GDP。 历史对比:这个比例低于 1872 年铁路泡沫时期的 4%,与 1990 年代末的电信泡沫(约 1%)相当。 特殊风险:与铁路或光纤不同,GPU 等 AI 硬件的折旧速度极快(约 3 年),这要求投资在更短时间内获得回报。 行业压力 (Industry Strain) - 状态:琥珀色 指标:资本支出(capex)与行业收入的比率。 现状:genAI 领域的资本支出约为收入的 6 倍(3700 亿美元资本支出 vs. 约 600 亿美元收入),这是三个历史案例中最高的。 历史对比:铁路泡沫时期该比率约为 2 倍,电信泡沫时期约为 4 倍。 收入增长 (Revenue Growth) - 状态:绿色...

September 24, 2025 · 2 min · fisherdaddy

OpenAI CEO Sam Altman 深夜发文,启动史上最酷基建项目,目标“充裕智能”

OpenAI CEO 奥特曼在其个人博客发布最新文章《充裕智能》,算是对今早OpenAI 官宣与英伟达战略合作共同部署至少 10 吉瓦的 NVIDIA 系统(数百万个 GPU)的回应,也是为了进一步融资做好铺垫,当然 10月的 OpenAI 开发者大会发布的产品大概率也有一部分原因是为融资做准备。现在硅谷有一个共识:算力=智力,所以 OpenAI以及马斯克的 xAI 都在疯狂的融资建大型 GPU 集群。 奥特曼的这篇文章有一些核心的信息值得关注: OpenAI 希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。要达到每周能生产一吉瓦这个里程碑,需要从芯片到电力,再到建筑和机器人技术的每一层技术栈的创新。 未来几个月,OpenAI 将会公布一些具体实现计划以及新的合作的伙伴。现在已经有微软、软银、ORACLE 和英伟达了,还得继续引入更多伙伴,继续要钱。 奥特曼认为增加算力是增加收入的直接关键。这句话额意思是 OpenAI 因为算力限制了发布新的产品或模型,进而限制了收入的增加,所以他们计划发布一些计算密集型的新东西。这里说的应该就是 Sora2 和获得IMO、IOI 和 ICPC 金牌的新版推理模型,也可能有类似于谷歌 Genie 3 一样的世界模型的发布。 原文:充裕智能 人工智能服务的使用增长一直令人惊叹;我们预计未来的增长将更加惊人。 随着人工智能变得越来越智能,获取人工智能将成为经济的根本驱动力,并最终可能被我们视为一项基本人权。几乎每个人都希望有更多的人工智能为他们服务。 为了能够提供世界所需——用于运行这些模型的推理算力,以及用于不断改进模型的训练算力——我们正在奠定基础,以便能够大幅扩展我们建设人工智能基础设施的雄心。 如果人工智能继续沿着我们认为的轨迹发展,那么惊人的事情将成为可能。也许用 10 吉瓦的算力,人工智能可以找到治愈癌症的方法。或者用 10 吉瓦的算力,人工智能可以为地球上的每个学生提供定制化的辅导。如果我们的算力有限,我们将不得不选择优先发展哪一个;没有人想做出这种选择,所以让我们开始建设吧。 我们的愿景很简单:我们希望创建一个每周能生产一吉瓦新人工智能基础设施的工厂。实现这一目标将极其困难;我们需要数年时间才能达到这个里程碑,并且需要在技术栈的每一层进行创新,从芯片到电力,再到建筑和机器人技术。但我们一直在为此努力,并相信这是可能实现的。在我们看来,这将是有史以来最酷、最重要的基础设施项目。我们特别高兴能将其中大部分建在美国;目前,其他国家在芯片工厂和新能源生产等方面的建设速度比我们快得多,我们希望帮助扭转这一趋势。 在接下来的几个月里,我们将讨论我们的一些计划以及为实现这一目标而合作的伙伴。今年晚些时候,我们将讨论如何为其融资;鉴于增加算力是增加收入的直接关键,我们有一些有趣的新想法。

September 24, 2025 · 1 min · fisherdaddy

OpenAI Codex 迎来重大升级

OpenAI Codex 团队像打了鸡血一样,Codex CLI 代码更新非常频繁,两天一大版本,一天多小版本。Codex 最近增长态势非常不错,过去两周的使用量增长了约 10 倍!注意这个增长 10 倍还是是在发布 GPT-5-Codex 最新编码模型之前,我之前(9 月 8 号)在微信公众号专门写文章介绍过 Codex 的实际水平以及一些使用建议,当时的核心是使用 gpt-5-high 模型。现在 OpenAI 正式发布 GPT-5-Codex 模型,大家可以切到这个最新的编码模型上了。这个模型一经发布,火爆整个 AI 圈,Claude Code 瞬间不香了,大家全都去用 Codex CLI 了,用 OpenAI CEO 的原话说是:Codex 的氛围,感觉像是 ChatGPT 刚出来的那几个月。 快速了解一下本次 Codex 升级内容 新模型 GPT-5-Codex 训练重点:模型专注于真实世界的复杂工程任务,如从零开始构建项目、添加功能、大规模重构和代码审查。 动态资源分配:模型能根据任务复杂性动态调整其“思考”时间。对于简单请求,响应更迅速(在某些场景下使用的 tokens 减少 93.7%);对于复杂任务,则会投入更多时间进行推理和迭代(推理时间增加一倍)。 持久的自主工作能力:在测试中,GPT-5-Codex 能够就一项复杂任务持续自主工作超过 7 小时,不断迭代和修复测试失败,直至成功交付。 增强的前端能力:该模型不仅能创建美观的桌面应用,还能处理前端任务,并可以在云端环境中查看图像输入、检查其视觉进度,并向用户展示工作截图。 Codex 产品与工具更新 Codex CLI:围绕代理式工作流进行了重建,支持附加图像(如截图、线框图)作为上下文,并引入了待办事项列表、网络搜索等工具。终端 UI 和审批模式也得到了简化和改进。 IDE 扩展:将 Codex 代理直接集成到 VS Code、Cursor 等编辑器中。它能利用编辑器中的上下文(如打开的文件)来提供更快速、更精准的响应,并支持在本地与云端任务间无缝切换。 云与 GitHub 集成:通过容器缓存,新任务和后续任务的中位完成时间缩短了 90%。Codex 现在可以自动设置环境、安装依赖,并在 GitHub 中直接执行任务和审查 PR。 核心功能:代码审查 (Code Review) 工作方式:与静态分析工具不同,Codex 能够理解 PR 的意图,并结合整个代码库进行推理,甚至执行代码和测试来验证其行为。 使用方法:在 GitHub 仓库中启用后,Codex 会自动审查 PR。开发者也可以通过评论 @codex review 来手动触发审查,并可添加特定指令,如审查安全漏洞。 内部应用:在 OpenAI 内部,Codex 已经审查了绝大多数的 PR,每天发现数百个问题,显著提升了开发速度和信心。 安全性与使用建议 沙盒环境:默认情况下,Codex 在本地和云端都运行在禁用了网络访问的沙盒环境中,以降低风险。 权限控制:开发者可以根据风险承受能力自定义安全设置,例如批准特定命令的运行或限制网络访问的域名。 人类监督:OpenAI 强调,Codex 应作为人类审查员的补充,而不是替代品,并鼓励开发者在使用前审查其工作成果。 定价与可用性 订阅计划:Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中,使用额度随计划等级提升。 API 访问:GPT-5-Codex 模型计划很快通过 API 提供给开发者。 在 Reddit 上的 AMA(问我任何事)活动 Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA(问我任何事)活动,有几个需要关注的信息:...

September 15, 2025 · 4 min · fisherdaddy

介绍一下 Qwen3-Next

Qwen 团队认为 Scaling Laws 法则仍然是未来大模型发展的趋势,主要包括 Context Length Scaling 和 Total Parameter Scaling。基于这个判断,Qwen 团队推出 Qwen3-Next 全新大模型架构,这个架构的核心就是为了提升在长上下文处理和大规模参数下的训练与推理效率。通过一个数据可以直观的看到基于这个架构的模型表现,Qwen3-Next-80B-A3B 仅用不到 Qwen3-32B 模型十分之一的训练资源,就达到了相近甚至更好的性能,并在长上下文推理场景下实现了超过 10 倍的吞吐量提升。 基于 Qwen3-Next-80B-A3B-Base 模型,Qwen 团队开源了 Qwen3-Next-80B-A3B-Instruct 与 Qwen3-Next-80B-A3B-Thinking。Instruct 版本在超长上下文任务上优势明显,性能媲美旗舰模型 Qwen3-235B;Thinking 版本在复杂推理任务上超越了 Gemini-2.5-Flash-Thinking 等顶级闭源模型。 架构创新 混合注意力机制: 模型中 75% 的层使用 Gated DeltaNet 以提升长文本处理效率,25% 的层保留增强后的标准注意力以确保模型性能,实现了效率与效果的最佳平衡。 高稀疏度 MoE 结构: 模型总参数量达到 80B,但每次推理仅激活约 3B 参数。专家系统扩展至 512 个总专家,并采用 10 个路由专家和 1 个共享专家的组合,最大化资源利用率。 训练稳定性优化: 采用了 Zero-Centered RMSNorm、权重衰减和 MoE router 参数归一化等技术,确保了模型在复杂架构下训练的稳定性。 多 Token 预测 (MTP): 原生支持 MTP 机制,通过一次预测多个 token,有效提升了 Speculative Decoding 的效率和推理速度。 训练与推理效率 训练成本: 使用 15T tokens 的数据进行预训练,所消耗的 GPU Hours 仅为 Qwen3-32B 模型的 9....

September 12, 2025 · 1 min · fisherdaddy