OpenAI 研究主管 Mark Chen 深度揭秘 GPT-5:从合成数据到自进化 AI,我们聊了聊未来

在全世界的目光都聚焦于 GPT-5 之际,Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中,他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破,以及 OpenAI 对 AI 未来的宏大构想。 这不仅仅是一次技术发布,更像是一场风暴的序幕。那么,风暴中心的 OpenAI 内部究竟是怎样的景象? 发布前的“情绪过山车”与不变的初心 每次重大发布前,OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言,项目初期总是充满兴奋,中途则会陷入一种“内部不确定性”——“这个模型会足够好吗?能达到预期吗?”而当接近终点线,看到所有努力汇聚成型时,那种能量又会重新燃起。此刻,整个团队都迫不及待地想把 GPT-5 展示给世界。 尽管 OpenAI 已经成长为一家拥有成功产品的公司,但其总裁 Greg Brockman 仍然强调,OpenAI 的本质是一个研究实验室。作为研究主管,Mark 如何平衡研究与产品的关系? 他的回答简单而深刻:“研究就是产品。” 每一次重大的研究突破,最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功,又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系,缺一不可。他们希望研究能与世界产生连接,让人们真实地体验到他们正在构建的智能。 GPT-5的诞生:两大秘诀破解“数据荒”与“推理难题” 从 GPT-4 到 GPT-5,外界普遍认为,高质量的公开数据已经接近枯竭。这个假设基本正确,但并不完全。那么,OpenAI 是如何解决这个“数据稀缺”问题的呢? 1. 合成数据的崛起 除了持续寻找新的公开数据源和授权数据,GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成,而非人类编写的数据。 很多人质疑,用上一代模型的数据来训练新模型,性能提升会不会非常有限?Mark 认为,合成数据的潜力远不止于此。他们发现,合成数据可以比人类数据质量更高,并能在关键领域显著提升模型性能,而不仅仅是加深表面知识。 尤其是在代码生成这个 OpenAI 极其重视的领域,合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例,但他承认,在 GPT-5 的训练数据中,合成数据的占比正“越来越多”。他相信,合成数据的技术是通用的,未来可以应用到几乎所有领域。 2. 预训练与推理的完美联姻 如果说 GPT-4 是将“预训练范式”(Pre-training Paradigm)规模化到极致的产物,那么 GPT-5 则是第一个将“预训练”和“推理范式”(Reasoning Paradigm)真正融合在一起的模型。 这听起来可能有点抽象,我们不妨这样理解: 预训练:像一个博闻强识的学者,能快速从海量知识库中提取信息,给出直接答案。 推理:像一个深思熟虑的侦探,面对复杂问题时,会花更多时间一步步思考、分析、推导,最终得出结论。 过去,这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”,模型会智能地在需要时调用深度推理,在其他时候则提供闪电般的快速响应。将这两个模式无缝集成,背后是 OpenAI 后训练(Post-training)团队的大量工作,他们让推理模型变得更快、更稳健、更可靠。 如何“感觉”一个模型的好坏?顶尖研究员的“Vibe Check”清单 当一个模型训练到什么程度才算“准备好了”?Mark 说这有点像一门艺术,需要在追求完美和把握时机之间找到平衡。除了各种硬核指标,一个关键环节是“Vibe Check”(感觉测试)。...

August 11, 2025 · 1 min · fisherdaddy

与 OpenAI CEO Sam Altman 穿越时空:GPT-5、超级智能与人类的“无限画布”

本文整理自 Cleo Abram 与OpenAI CEO Sam Altman深入对话,带你 5 分钟了解这篇访谈的精华。 我们正处在一个非比寻常的时代。人工智能(AI)的发展速度之快,力量之大,已经超出了几年前最大胆的科幻想象。在这场全球最高赌注的竞赛中,OpenAI和其CEO山姆·奥特曼(Sam Altman)无疑是风暴的中心。 最近,他们刚刚发布了至今最强大的模型GPT-5。这不仅仅是一次技术迭代,更像是一次带我们穿越到未来的预演。 在这场深度对话中,我们不谈估值,不谈人才战,而是尝试与Sam Altman一起进行几次“时空旅行”,去看看他正在构建的未来到底是什么样子,以及它对我们每个人意味着什么。 欢迎来到GPT-5时代:“你将要用到的最笨的模型” 不久前,Sam Altman曾说,GPT-4将是“我们不得不使用的最笨的模型”。这听起来有些凡尔赛,毕竟GPT-4已经能在SAT、法学院入学考试(LSAT)等多种标准化测试中超越90%的人类,甚至还能通过品酒师和医生执照考试。 那么,刚刚发布的GPT-5,又带来了怎样的飞跃? Sam坦言,尽管GPT-4在测试中表现惊人,但它显然无法复制人类真正擅长的许多事情。这或许也反思了那些标准化测试的价值。他相信,GPT-5也会遵循同样的轨迹:人们会被它的新能力震撼,然后又会发现新的、更高的期望。 “它会改变知识工作、学习方式和创造方式,”Sam说,“但社会会与它共同进化,我们会用更好的工具去做更了不起的事。” 一场7秒钟的“贪吃蛇”编程之旅 为了让我们更直观地理解GPT-5的魔力,Sam分享了一个有趣的个人经历。 “我上初中的时候,有一台TI-83图形计算器。我花了很长时间,用极其痛苦的方式,在上面写了一个‘贪吃蛇’游戏。前阵子,我心血来潮,用一个早期版本的GPT-5试了一下,问它:‘你能做一个TI-83风格的贪吃蛇游戏吗?’ 结果,它只用了7秒钟就完美地完成了。 我当时愣了3秒钟,心想,我11岁的自己看到这个会觉得很酷,还是会觉得失去了奋斗的乐趣?但这个念头转瞬即逝,我立刻有了新点子:‘给这个游戏加个疯狂的新功能!’它马上就实现了。‘我希望界面看起来是这样’,‘我想让它能做到这个’……我好像又回到了11岁编程时的那种状态,但速度快了无数倍。想法可以实时变成现实,这种创造的快感太惊人了。” 这个故事完美诠释了GPT-5的核心飞跃:它不仅仅能回答问题,更能即时、按需地创造复杂的软件。 这是一种在GPT-4时代不曾存在的、能够将想法瞬间具象化的能力。 “认知负重”的消失,是好事还是坏事? 这引出了一个有趣的问题:当AI能瞬间完成我们过去需要投入大量“认知负重”(Cognitive Time Under Tension)才能完成的任务时,我们的大脑会不会变得“懒惰”?就像健身一样,花30秒做一个深蹲比花3秒钟能锻炼更多肌肉。思考也是如此。 Sam承认,的确有人在用ChatGPT来“逃避思考”,但也有更多人,尤其是那些顶尖的5%的用户,正用它来“进行前所未有的深度思考”。 “社会是一个竞争激烈的地方,”他推测道,“当人们拥有了更强大的工具,期望值也会随之水涨船高。最终,那些善用AI来增强自己‘认知负重’的人,会创造出更了不起的成就。” 拨开迷雾:通往超级智能的崎岖之路 GPT-5只是一个开始,OpenAI的终极目标是超级智能(Superintelligence)。这到底意味着什么? Sam给出了一个具体的定义: “如果我们有一个系统,它在AI研究方面的能力超过了整个OpenAI的研究团队;如果同一个系统,在管理OpenAI这家公司方面能比我做得更好……那么,这个集结了超越顶尖研究员、顶尖CEO能力的系统,对我来说,就是超级智能。” 这个在几年前听起来像科幻小说的场景,如今似乎已在迷雾中若隐若现。 那么,我们如何抵达那里? Stripe的CEO Patrick Collison提出了一个关键问题:“通用大模型(如GPT系列)大概在哪一年能做出重大的科学发现?” Sam的预测是,在未来2到3年内,最晚到2027年底,大多数人会公认AI已经独立作出了重大的科学发现。 他用一个例子来说明我们目前的位置: 一年前,AI能解决高中水平的数学竞赛题,这对于专业数学家来说可能只需要几分钟。 最近,AI在国际数学奥林匹克(IMO)竞赛中拿到了金牌。这些题目,每个都需要顶尖选手花费一个半小时来解决。 下一步,是证明一个重大的新数学定理,这可能需要一位顶级数学家投入上千小时的工作。 “我们正在这条轨道上前进,”Sam说,“从几分钟的任务,到几十分钟的任务,再到上千小时的任务。我们需要不断地扩展模型的规模和能力。” 但这不仅仅是算力问题。真正的科学发现,往往需要设计新的实验、建造新的仪器来收集地球上尚不存在的数据。这个与物理世界互动的过程,将会是AI前进道路上一个自然的“减速带”。 生活在AI时代:几个来自未来的场景 场景一:2030年,我们如何辨别真伪? 还记得那个“兔子在蹦床上跳”的病毒视频吗?很多人喜欢它,分享它,最后才发现,它是AI生成的。 到了2030年,当我们刷着社交媒体时,如何分辨哪些是真实的,哪些是AI的创作? Sam认为,我们对“真实”的定义会逐渐演变。“你现在用iPhone拍一张照片,它就已经经过了大量AI处理,比‘真实’更‘好看’。我们已经接受了这一点。未来,我们将习惯于一个更高比例的媒体内容是AI生成或深度编辑的。就像我们看科幻电影,我们知道那是假的,但我们依然享受其中。人们的媒介素养会自然而然地提升。” 场景二:2035年,大学毕业生的世界 有人预测,五年内一半的入门级白领工作将被AI取代。那么,2035年大学毕业的年轻人将面临一个怎样的世界? Sam对此感到前所未有的乐观。 “如果我今年22岁大学毕业,我会觉得自己是历史上最幸运的孩子。”他激动地说,“因为你拥有了前所未有的强大工具,去创造全新的东西。现在,一个人完全有可能创办一家最终市值超过十亿美元的公司,为世界提供惊人的产品和服务。这在过去是不可想象的。” 他更担心的不是年轻人,而是那些62岁、不愿或难以重新学习适应新工具的劳动者。对于年轻人来说,这更像是一个充满无限可能的新大陆。 场景三:2035年,AI如何守护我们的健康? 如果说AI有一个领域能给全人类带来最直接的福祉,那一定是健康。 “GPT-5在健康咨询方面的准确性已经有了显著的提升。”Sam透露,大量的用户正在使用ChatGPT寻求健康建议,甚至有人通过它诊断出了医生都未能发现的罕见病。 但咨询只是第一步。他希望到了2035年,情况会是这样: “我希望能够对GPT-8说:‘去治愈这种特定的癌症。’然后GPT-8会去思考,阅读所有文献,然后说:‘好的,我需要你让实验员帮我做这9个实验。’两个月后,我们把结果反馈给它。它再次思考,然后说:‘好的,再做一个实验。’最后,它会告诉你:‘去合成这个分子,它就是解药。’” 这种由AI主导的、加速千百倍的科学发现,将是AI带给人类最深刻的礼物。 AI背后的引擎:三大瓶颈与一个关键 要实现这一切,OpenAI面临着巨大的挑战。Sam将其归结为四个限制因素:算力(Compute)、数据(Data)、算法(Algorithms),以及他特别补充的第四点——产品(Products)。 算力:这可能是“人类历史上最大、最昂贵的基础设施项目”。从芯片制造、服务器组装到数据中心建设,整个供应链极其复杂。目前最大的瓶颈是能源。“要建一个千兆瓦级的数据中心,你首先得找到一个能提供千兆瓦电力的地方,这比你想象的要难得多。” 数据:我们正在进入一个“数据枯竭”的阶段。对于GPT-5这样的模型来说,地球上所有的物理教科书它都已经“吃透”了。下一步,AI不能只学习已知,它必须去发现未知。这意味着要创造合成数据,或者让AI自己去设计实验、探索世界。 算法:这是OpenAI最引以为傲的地方。从最初被嘲笑的GPT-1“猜下一个词”的游戏,到后来“强化学习+推理”的巨大飞跃,算法上的突破一直是指数级增长的核心驱动力。Sam透露,这条路并非一帆风顺,他们也曾走过弯路(比如一个代号“Orion”的过于庞大笨拙的模型),但总体上,进步的曲线是“惊人地平滑”的。 产品:纯粹的科学进步如果不能交到用户手中,就无法与社会共同进化。打造像ChatGPT这样被大众喜爱的产品,同样至关重要。 一场社会实验:我们共同的责任 当一个研究员对模型性格做出一个微小的调整,就可能影响全球数十亿次的对话时,Sam感受到了前所未有的敬畏和责任感。“这股力量太庞大了,它发生得太快了。”...

August 11, 2025 · 1 min · fisherdaddy

2025 年第二季度全球 AI 进展简报

本摘要概述了 Artificial Analysis 发布的《2025 年第二季度 AI 状况报告》的重点内容,分析了人工智能行业在模型、应用和硬件方面的最新进展与趋势。 核心内容 行业进入成熟期,竞争格局重塑:2025 年第二季度,AI 行业展现出显著的成熟迹象。在语言模型领域,xAI 的 Grok 4 首次超越 OpenAI,成为智能水平最高的模型,标志着前沿领域的竞争愈发激烈。同时,中国 AI 实验室在开源语言模型和视频生成技术方面表现出强大的领导力。 AI 代理 (Agents) 应用爆发:AI 代理技术正从实验阶段迅速走向实际生产应用,尤其是在编程领域。本季度涌现出大量编码代理产品,它们通过自主执行复杂任务,显著提升了开发效率,成为推动 AI 应用落地的关键力量。 多模态技术持续突破:虽然文本生成图像的进展放缓,但视频生成技术取得了突破性进展,无论在视频质量还是在音视频同步生成方面(如 Google Veo 3)都达到了新的高度。语音合成技术也朝着更真实、更低成本的方向发展。 算力需求与硬件迭代加速:随着模型日益复杂及代理应用的普及,对计算资源的需求急剧增加。NVIDIA 推出的新一代加速器 B200 在性能上远超前代产品,行业关注点也从单个芯片的性能转向整个系统的综合表现,以应对更大规模的训练和推理挑战。 关键细节 语言模型 (Language Models) 智能水平排名:根据 Artificial Analysis 智能指数,xAI 的 Grok 4 以 73 分的成绩位居榜首,超越了 OpenAI 的 o3-pro (71 分) 和 Google 的 Gemini 2.5 Pro (70 分)。 开源模型崛起:以 DeepSeek R1 为代表的开源模型在性能上已接近顶级专有模型,其中,来自中国的 DeepSeek、MiniMax 和 Alibaba 等实验室在开源领域处于领先地位。 成本与效率:模型推理成本大幅下降,前沿水平(智能指数 ≥ 50)的推理价格在第二季度下降了近 75%。然而,推理(Reasoning)模型和 AI 代理等新应用会消耗高达 10 倍以上的计算资源,导致总体算力需求持续增长。 AI 代理 (AI Agents) 产品快速增长:仅在 2025 年第二季度,市场上就出现了 12 款主要的编码代理新产品,包括来自 OpenAI 和 Google 的工具。 市场采纳情况:在 AI 编码工具中,GitHub Copilot 和 Cursor 的市场需求最高,占据主导地位。 成本影响:代理工作流会增加 token 和工具的使用量,从而推高成本。例如,一次深度研究查询的费用最高可达 28 美元。 多模态模型 (Image, Video & Speech) 视频技术突破:Bytedance 的 Seedance 1....

August 7, 2025 · 1 min · fisherdaddy

介绍一下 Google 最新发布的世界模型 Genie 3

Genie 3 是一项在世界模型领域取得重大突破的技术,其核心能力在于实时创造可供探索的虚拟环境。它不仅能模拟物理世界和自然生态,还能构建富有想象力的虚构场景。该模型的主要目标是推动人工智能研究,特别是为机器人等具身智能体(embodied agent)提供一个广阔、一致且可控的训练平台,从而加速通用人工智能(AGI)的进程。Google DeepMind 强调负责任的开发,目前以有限研究预览的形式发布 Genie 3,以便在探索其潜力的同时,收集反馈并管理相关风险。 您的浏览器不支持视频标签。 核心技术与能力 多样的世界生成:Genie 3 能够生成各种类型的世界,包括: 物理模拟:模拟水流、光照等物理现象和复杂的环境互动。 自然生态:生成包含动植物行为的生动生态系统。 虚构动画:创造富有想象力的奇幻场景和动画角色。 历史与地理探索:重现特定地点(如阿尔卑斯山)和历史时期。 实时交互性:模型实现了高度的可控性和实时互动。它能在一秒内多次响应用户的导航输入,实现流畅的实时探索体验。 长期环境一致性:Genie 3 生成的环境能在数分钟内保持高度的物理一致性,其视觉记忆可追溯至一分钟前。这是一种“涌现”能力,与依赖显式 3D 表征的 NeRFs 或 Gaussian Splatting 等技术不同。 可提示的世界事件:除了导航控制,用户还可以通过文本指令(promptable world events)来改变世界,例如更改天气或引入新物体,极大地增强了互动性和场景的丰富度。 应用与未来方向 推动智能体研究:Genie 3 已被用于为 Google 的通用智能体 SIMA 提供训练环境。由于其环境的一致性,智能体可以在其中执行更长、更复杂的任务序列。 未来潜力:该技术有望在教育、专业培训、机器人和自动驾驶系统等领域创造新的机会,提供一个广阔的平台来训练和评估智能体的性能。 局限性与责任 当前局限性: 智能体可直接执行的动作空间有限。 精确模拟多个独立智能体之间的复杂互动仍是挑战。 无法完美准确地再现真实世界的地理位置。 文本渲染效果不佳。 连续互动时长限制在几分钟内。 负责任的开发:Google DeepMind 认识到该技术的潜在风险,与责任创新团队紧密合作。目前,Genie 3 作为有限研究预览版,仅向一小部分学者和创作者开放,以收集反馈,确保技术以安全、负责任的方式发展。

August 6, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-30B-A3B-Instruct

Qwen 团队在 2025 年 7 月 31 号开源 30B 的编码模型 Qwen3-Coder-30B-A3B-Instruct。该模型经过精简,旨在保持卓越性能的同时提高效率,特别是在 Agentic 编程和长上下文处理方面表现突出。 Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码语言模型。其核心优势在于卓越的 Agentic 编程能力、对超长上下文的原生支持以及在各类代码任务中的顶尖性能。该模型专为处理代码库级别的复杂任务而设计,并通过特殊的函数调用格式,为开发者提供了强大的工具集成能力。 模型亮点 卓越性能: 在 Agentic Coding (智能体编程)、Agentic Browser-Use (智能体浏览器使用) 及其他基础编码任务中,该模型在开源模型中表现出众。 长上下文能力: 原生支持 256K tokens 的上下文长度,并可通过 Yarn 技术扩展至 1M tokens,能够轻松理解和处理整个代码库。 Agentic 编程支持: 支持 Qwen Code、CLINE 等多种平台,并设计了专门的函数调用 (function call) 格式,便于工具集成和自动化任务。 模型规格 模型类型: 因果语言模型 (Causal Language Models)。 参数量: 总参数量为 30.5B,激活参数量为 3.3B。 架构: 包含 48 个层,采用分组查询注意力 (GQA) 机制,其中查询 (Q) 有 32 个注意力头,键/值 (KV) 有 4 个。模型采用专家混合 (MoE) 架构,共有 128 位专家,每次激活 8 位。 上下文长度: 原生支持 256K 上下文。 特别说明: 此模型仅支持非思考模式,不会在输出中生成 <think></think> 标记。 使用与部署 环境要求: 强烈建议使用 transformers 库的最新版本(低于 4....

August 1, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-30B-A3B-Thinking-2507

Qwen 团队在 2025 年7 月 30 号开源了的最新语言模型 Qwen3-30B-A3B-Thinking-2507。该模型在 Qwen3-30B-A3B 的基础上,进一步提升了深度推理和思考能力,专为处理高度复杂的任务而设计。 Qwen3-30B-A3B-Thinking-2507 是一款经过深度优化的语言模型,其核心优势在于卓越的推理能力。该模型在过去三个月中持续迭代,显著增强了在逻辑、数学、科学、编码等需要专业知识的领域的表现。同时,它在指令遵循、工具使用、文本生成等通用能力以及对 256K 长上下文的理解能力方面也得到了显著提升。因此,官方强烈推荐在处理高复杂度推理任务时使用此版本。 模型规格与特性 模型类型: 因果语言模型 (Causal Language Model),采用 MoE (Mixture-of-Experts) 架构。 参数规模: 总参数量为 30.5B,激活参数量为 3.3B。 架构信息: 模型包含 48 个层,128 个专家,每次前向传播激活 8 个专家。 上下文长度: 原生支持高达 262,144 (256K) tokens 的上下文窗口。 核心模式: 模型仅支持 “thinking mode”,该模式默认启用,会自动在输出中包含思考过程。 性能表现 该模型在一系列行业标准基准测试中展现了强大的性能,尤其在以下方面提升显著: 推理能力: 在 AIME25 (数学推理) 和 HMMT25 (数学竞赛) 等高难度测试中得分大幅领先前代模型及部分竞品。 编码能力: 在 LiveCodeBench 和 OJBench 等编码测试中表现优异。 综合能力: 在知识问答 (MMLU-Pro)、与人类偏好对齐 (Arena-Hard v2)、Agent 应用 (BFCL-v3, TAU 系列) 等多个维度均表现出色。 使用与部署 环境依赖: 建议使用最新版本的 Hugging Face transformers 库 (>=4....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队开源的 Qwen3-30B-A3B-Instruct-2507

Qwen 团队于 2025 年 7 月 30 日开源了 Qwen3-30B-A3B-Instruct-2507,它是 Qwen3-30B-A3B 非思考模式的升级版本,该模型在多个核心能力上进行了显著增强。 Qwen3-30B-A3B-Instruct-2507 是一款经过全面优化的因果语言模型,其核心优势在于: 综合能力显著提升:在指令遵循、逻辑推理、文本理解、数学、科学、代码和工具使用等通用能力上取得了巨大进步。 知识覆盖更广:大幅增强了多语言场景下的长尾知识覆盖范围。 用户对齐更优:在主观和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力增强:提升了在 256K 长上下文理解方面的能力。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持非思考模式。 参数量:总参数量为 30.5B,激活参数量为 3.3B。 模型架构:采用混合专家模型 (MoE) 架构,包含 48 个层、128 个专家(每次激活 8 个)。 上下文长度:原生支持 262,144 (256K) tokens 的上下文长度。 性能表现 该模型在多个行业标准测试基准 (Benchmark) 中展现出强大的竞争力,其表现在多个方面可与 GPT-4o-0327 和 Gemini-2.5-Flash 等顶尖模型媲美或超越。 推理能力:在 AIME25 (数学) 和 ZebraLogic (逻辑) 等测试中得分尤为突出,显著优于其前代模型和其他对比模型。 代码能力:在 MultiPL-E 等多语言代码生成测试中表现优异。 对齐能力:在 Arena-Hard v2、Creative Writing v3 和 WritingBench 等评估模型与人类偏好对齐程度的测试中,得分大幅领先其前代模型,并超过了 GPT-4o。 使用与部署 快速上手:模型已集成到最新的 Hugging Face transformers 库中,用户可以通过标准代码片段进行调用。 服务部署:推荐使用 sglang (>=0....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里最新开源的视频生成模型:Wan2.2

2025 年7 月 28 日,阿里开源了一个先进的大规模视频生成模型 Wan2.2。作为 Wan 系列的重大升级,Wan2.2 在模型架构、数据训练、生成效率和美学质量上均实现了显著突破,旨在为学术界和工业界提供顶尖的视频生成能力。 Wan2.2 是一个功能强大的开源视频生成模型,其核心创新在于引入了高效的 MoE (混合专家) 架构,显著提升了模型容量而未增加计算成本。通过使用更大规模、更精细标注的训练数据,Wan2.2 在生成视频的动作复杂度和电影级美学质感方面达到了业界领先水平。此外,它还推出了一个高效的高清混合模型 TI2V-5B,该模型能在消费级显卡 (如 RTX 4090) 上运行,支持生成 720P 分辨率的视频,并兼顾了文生视频和图生视频功能,极大地降低了高质量视频生成的门槛。 1. 架构与技术创新 MoE (混合专家) 架构: Wan2.2 首次将 MoE 架构引入视频扩散模型。它设计了两个专家模型(高噪声专家和低噪声专家),分别处理去噪过程的不同阶段。这使得模型总参数量达到 27B,但每步推理时仅激活 14B 参数,从而在提升模型能力的同时保持了计算效率。 高效高清混合 TI2V 模型: Wan2.2 开源了一个 5B 参数的紧凑模型 TI2V-5B。该模型采用全新的 Wan2.2-VAE,实现了 4×16×16 的高压缩率,支持在 24GB 显存的消费级显卡上生成 720P、24fps 的高清视频,是目前速度最快的同类模型之一。 统一框架: TI2V-5B 模型在统一的框架内原生支持文生视频 (Text-to-Video) 和图生视频 (Image-to-Video) 两种任务。 2. 性能与质量提升 电影级美学: 模型使用了经过精心策划和详细标注(如光照、构图、色调等)的美学数据进行训练,使得生成的视频具有可控的电影级风格。 复杂动作生成: 与 Wan2.1 相比,Wan2.2 的训练数据量大幅增加(图像 +65.6%,视频 +83.2%),显著增强了模型在动作、语义和美学等多个维度的泛化能力,在 Wan-Bench 2.0 评测中表现优于顶尖的闭源商业模型。 提示词扩展: 支持使用 Dashscope API 或本地模型 (如 Qwen) 对用户输入的提示词进行扩展,以生成更丰富、更高质量的视频内容。 3....

July 29, 2025 · 1 min · fisherdaddy

介绍一下智谱开源的模型 GLM-4.5: 推理、编码和智能体能力

智谱在 2025 年7 月 29 日开源了两个全新的旗舰大语言模型:GLM-4.5 和 GLM-4.5-Air。其核心目标是打破现有模型在特定领域(如推理、编码)表现突出但综合能力不足的局限,将卓越的推理、编码和 Agent(智能体)能力统一到单个模型中。该系列模型采用 MoE(混合专家)架构,并具备创新的混合推理模式,可根据任务复杂性在用于深度思考的 thinking mode 和用于即时响应的 non-thinking mode 之间切换。在综合性能评测中,GLM-4.5 在与业界主流模型的对比中位列第三,展现出强大的竞争力,并在性能与模型规模的权衡中实现了高效率。该模型已通过 Z.ai 平台、API 接口及开源权重等多种方式向用户开放。 核心内容 发布新一代旗舰模型:正式推出 GLM-4.5 和 GLM-4.5-Air 两个新模型,旨在统一并提升模型的综合能力。 统一三大核心能力:致力于将推理(Reasoning)、编码(Coding)和智能体(Agentic)三大关键能力融合于单一模型,以满足日益复杂的应用需求。 创新的混合推理模式:模型内置 thinking mode(思考模式)和 non-thinking mode(非思考模式),前者用于处理复杂任务,后者用于快速响应,实现了性能与效率的平衡。 卓越的综合性能:在覆盖 Agent、推理和编码三大领域的 12 个基准测试中,GLM-4.5 综合排名第三,证明了其在行业内的领先地位。 先进的技术架构与训练方法:采用 MoE 架构,并通过专门设计的强化学习框架 slime 对 Agent 能力进行深度优化,最终通过“专家蒸馏”技术整合各项专长。 关键细节 模型参数与性能排名 模型规模:GLM-4.5 拥有 3550 亿总参数和 320 亿活跃参数;GLM-4.5-Air 则为 1060 亿总参数和 120 亿活跃参数。 综合排名:在与 OpenAI、Anthropic、Google 等多家机构模型的对比中,GLM-4.5 综合排名第三,GLM-4.5-Air 排名第六。 Agent (智能体) 能力 基础能力:模型提供 128k 上下文长度和原生函数调用(Function Calling)能力。 基准测试表现:在 τ-bench 和 BFCL-v3 基准上,其性能与 Claude 4 Sonnet 相当。在网页浏览基准 BrowseComp 上,其正确率达到 26....

July 29, 2025 · 1 min · fisherdaddy

揭秘 AI 文生视频背后的核心原理

本文整理自 3Blue1Brown 最新发布由 Welch Labs 制作的科普视频《But how do AI images/videos actually work?》,本视频深入浅出地讲解了扩散模型(Diffusion Models)如何从一团随机噪声生成逼真视频,并探讨了它与物理学布朗运动的奇妙联系。从 CLIP 模型的图文理解,到 DDPM/DDIM 的降噪过程,再到分类器引导(Classifier-Free Guidance)的精准控制,带你一步步看懂 AI 创造力的来源。 AI视频生成大揭秘:从一团噪声到高清大片,背后竟是物理学? 你有没有试过,在输入框里敲下一段天马行空的文字,比如“一个宇航员在月球上骑马”,然后敬畏地看着AI在几分钟内为你生成一段栩栩如生的视频?这感觉就像魔法。 近几年来,AI从文本生成视频的能力已经达到了令人惊叹的水平。但这不是魔法,它的核心原理其实与一个我们既熟悉又陌生的领域——物理学,有着千丝万缕的联系。 这一代图像和视频生成模型,其工作核心是一种叫做**扩散(Diffusion)**的过程。奇妙的是,这个过程在数学上,等价于我们观察到的粒子扩散的“布朗运动”,只不过是把时间倒过来放,并且是在一个超高维度的空间里进行的。 从纯粹的噪声,经过50次迭代,最终生成一个清晰的视频 这听起来可能有点玄乎,但它绝不仅仅是一个有趣的巧合。我们能从物理学中获得实实在在的算法,用来生成图像和视频。更重要的是,这个视角能给我们一种绝佳的直觉,帮助我们理解这些模型在实践中到底是如何工作的。 要彻底搞明白这一切,我们需要分三步走: CLIP模型:先了解AI是如何学会像人一样,同时理解文字和画面的。 扩散过程:深入探索“从噪声到图像”这一神奇过程背后的物理和数学原理。 引导生成:看看如何将前两者的能力结合,精确地“驾驶”AI,让它生成我们想要的一切。 第一步:让AI看懂“人话”和“画”——CLIP模型 时间回到2021年,当时OpenAI发布了一个名为CLIP(Contrastive Language–Image Pre-training)的模型。这东西彻底改变了游戏规则。 CLIP其实是两个模型的组合:一个语言模型(处理文字)和一个视觉模型(处理图像)。它们被放在一起,用一种非常聪明的方式进行训练。训练数据是从互联网上抓取的4亿对“图片-描述”组合。 它的核心思想很简单:对于一张图片和它的文字描述,它们在模型处理后生成的“代码”(即向量)应该是相似的。 怎么做到呢?想象一下,我们随机抽取一批图文对,比如: 图1:一只猫,描述1:“一张猫的照片” 图2:一只狗,描述2:“一张狗的照片” 图3:一个男人,描述3:“一个男人的照片” 我们把这三张图扔给图像模型,把三段描述扔给文字模型,会得到三个图像向量和三个文字向量。接下来就是最巧妙的部分了: 模型的目标是,让“配对成功”的向量(比如图1和描述1)在空间中的方向尽可能接近,而让“配对失败”的向量(比如图1和描述2)尽可能远离。这种通过对比来学习的方式,就是CLIP名字中“Contrastive”(对比)的由来。 这个训练过程结束后,我们得到了一个神奇的“共享嵌入空间”(Embedding Space)。在这个空间里,相似的概念会聚集在一起。它的几何结构甚至允许我们做一些匪夷所思的“向量数学”: 拿一张我戴着帽子的照片,用图像模型生成向量A。 再拿一张我没戴帽子的照片,生成向量B。 然后计算 向量A - 向量B,得到一个新的向量C。 你猜这个向量C最接近哪个词的向量?没错,就是“帽子”(hat)! (我戴着帽子的照片) - (我没戴着帽子的照片) ≈ (“帽子”这个词) 这太惊人了!这意味着CLIP学到的不只是像素,而是纯粹的概念。它把“戴帽子”这个视觉差异,转化成了可以在数学上操作的向量距离。 不过,CLIP本身有一个局限:它只能单向地将图片和文字“编码”成向量,却无法从一个向量“解码”回一张图片。它能理解,但不会创造。 这就为我们的第二步——扩散模型,铺平了道路。 第二步:从混沌中创造秩序——扩散模型的魔力 2020年,在GPT-3论文发布几周后,伯克利的一个团队发表了一篇里程碑式的论文,名为DDPM(Denoising Diffusion Probabilistic Models)。它首次证明,通过扩散过程,可以从纯粹的噪声生成高质量的图像。 扩散模型的基本思路听起来很直观: 正向过程(加噪):拿一张清晰的图片,一步步往上加噪声,直到它变成一团毫无意义的随机像素。 反向过程(去噪):训练一个神经网络,学习如何逆转这个过程,把那团噪声一步步还原成清晰的图片。 你可能会想,那模型就是学习如何“一次去掉一小步噪声”吧?比如从第100步的噪声图,预测出第99步的样子。当你需要生成图片时,就从一个随机噪声开始,把模型的输出反复喂给它自己,直到图像变清晰。 听起来合情合理,但事实证明,这种天真的方法效果并不好。现代的扩散模型几乎都不是这么干的。 DDPM论文里的算法揭示了两个让人意外的关键细节:...

July 28, 2025 · 1 min · fisherdaddy