FisherAI

介绍一下 OpenAI 推出的浏览器 Atlas

OpenAI 于 2025 年 10 月 21 日推出了一款以 ChatGPT 为核心的全新网络浏览器——ChatGPT Atlas。这款浏览器旨在通过深度集成 AI，重塑用户的网页浏览体验，使其成为一个能够理解用户意图并主动完成任务的“超级助理”。 ChatGPT Atlas 的核心思想是将 ChatGPT 的强大功能与浏览器深度融合，让 AI 能够理解用户正在浏览的内容和上下文，从而在不离开当前页面的情况下，提供即时帮助、自动化执行任务。这标志着网页浏览从被动获取信息，向与 AI 协同完成工作的主动模式转变。其最终目标是让用户能够将繁琐的日常任务委托给 AI，从而专注于更重要的事情。关键细节核心功能与特性深度集成: ChatGPT 内置于浏览器中，可随时调用，理解当前页面内容，无需复制粘贴。浏览器记忆 (Browser memories): Atlas 可以选择性地记住用户浏览过网站的上下文信息，并在后续的对话和任务中利用这些信息，例如，可以要求它“总结我上周看过的所有招聘信息，并分析行业趋势”。代理模式 (Agent mode): 在此模式下，ChatGPT 可以在浏览器中为用户执行具体操作。例如，根据一个在线食谱，自动寻找商店、将所有配料加入购物车并下单。该功能目前为 Plus、Pro 和 Business 用户提供预览。用户控制与隐私安全用户自主控制: “浏览器记忆”功能完全可选，用户可以随时在设置中查看、归档或删除这些记忆。用户也可以随时控制 ChatGPT 对特定网站的访问权限。数据训练: 默认情况下，用户的浏览内容不会被用于训练 OpenAI 的模型。用户可以选择在数据控制设置中开启“包括网页浏览”来授权训练。代理模式安全措施: 代理无法在浏览器中运行代码、下载文件或安装扩展程序。在访问金融机构等敏感网站时，代理会暂停以确保用户知情。尽管有安全措施，官方仍提示代理模式存在被恶意指令利用的风险，并建议用户保持警惕。发布与平台支持首发平台: ChatGPT Atlas 今日起在全球范围内向 macOS 用户推出，覆盖 Free、Plus、Pro 和 Go 等多个版本。后续支持: Windows、iOS 和 Android 平台的版本也即将推出。企业版本: Business、Enterprise 和 Edu 用户可在管理员授权后使用 Beta 版本。原文：介绍 ChatGPT Atlas 今天我们推出 ChatGPT Atlas，一款以 ChatGPT 为核心构建的新型网页浏览器。...

快速了解一下 DeepSeek-OCR

2025年 10 月 20 号 DeepSeek 团队在 HuggingFace 开源 DeepSeek-OCR ，该模型主要用于探索一种名为“上下文光学压缩” (contexts optical compression) 的创新理念。该方法旨在解决大型语言模型 (LLM) 在处理长文本时面临的计算效率难题，通过将文本信息渲染成图像，利用视觉 Token 实现比原始文本 Token 更高效的压缩。主要观点核心问题: 当前的大型语言模型 (LLM) 在处理长文本时，其计算复杂度会随文本长度呈二次方增长，导致效率低下。创新方案: 提出“上下文光学压缩”概念，即将文本内容转换为图像，利用视觉语言模型 (VLM) 进行处理。由于一张图像可以用远少于原始文本的视觉 Token 来表示，这种方法有望实现极高的信息压缩率。关键成果: 研发了 DeepSeek-OCR 模型作为此概念的验证。实验证明，该模型能在 9-10x 的压缩率下达到 96% 以上的文本解码精度。此外，DeepSeek-OCR 在主流的文档解析基准测试中，以最少的视觉 Token 消耗实现了端到端模型中的最佳性能 (state-of-the-art)。关键细节模型架构与创新 DeepSeek-OCR 组成: 模型由两部分构成：一个新颖的视觉编码器 DeepEncoder 和一个 DeepSeek-3B-MoE 解码器。 DeepEncoder 架构: 这是模型的核心创新。它串联了以窗口注意力为主的 SAM 模型和以全局注意力为主的 CLIP 模型，并通过一个 16x 的卷积压缩器连接两者。这种设计使得模型在处理高分辨率图像时，能有效控制计算内存和视觉 Token 的数量。多分辨率支持: DeepEncoder 支持多种分辨率模式（如 Tiny, Small, Base, Large, Gundam），使其能够灵活测试不同压缩比下的性能，并适应不同复杂度的文档。性能评估视觉-文本压缩率研究: 在 Fox 基准测试中，DeepSeek-OCR 表现出色：在 9-10x 的压缩比下，解码精度超过 96%。在 10-12x 的压缩比下，精度约为 90%。即使在接近 20x 的高压缩比下，精度仍能保持在 60% 左右。 OCR 实践性能: 在 OmniDocBench 基准测试中，DeepSeek-OCR 的表现优于其他端到端模型：仅用 100 个视觉 Token，性能就超过了使用 256 个 Token 的 GOT-OCR2....

Andrej Karpathy 深度解析：为什么AI智能体是“十年之约”，而非“一年之功”？

本文来自于 Andrej Karpathy 的在 Dwarkesh Patel 上的播客访谈。在这次访谈中，Andrej 解释了为什么强化学习很糟糕 (但其他一切都更糟糕)，为什么 AGI 会融入过去约 2.5 个世纪的 2% GDP 增长中，为什么自动驾驶花了这么长时间才取得突破，以及他认为的未来教育是什么。 Andrej Karpathy 认为，我们正处于“智能体十年”（decade of agents）而非“智能体之年”（year of agents），因为当前的大语言模型（LLM）虽然取得了显著进展，但在实现真正可靠的智能体方面仍存在诸多认知缺陷，解决这些问题需要长期的努力。他将 AI 的发展视为计算和自动化趋势的延续，而非一个会颠覆经济增长率的突变事件，并强调了其中的历史曲折，例如早期对游戏环境强化学习的过度投入是一个“失误”。他认为，当前 AI 的核心挑战在于从海量、低质量的互联网数据中分离出真正的“认知核心”（cognitive core），即解决问题的算法和能力，而不是过度依赖记忆。他批评当前的强化学习（RL）方法效率低下，如同“通过吸管吸取监督信号”（sucking supervision through a straw），并且模型在利用自身生成的数据进行训练时，容易陷入“模型坍塌”（model collapse）的困境，丧失多样性。对于未来，他预测 AI 不会带来经济增长率的急剧爆炸，而是会延续现有的指数增长趋势。他最大的担忧是人类会逐渐失去对 AI 系统的理解和控制。因此，他目前致力于通过教育项目 Eureka 来赋能人类，旨在通过构建高效的“知识坡道”（ramps to knowledge），让前沿技术变得更容易理解和掌握，从而确保人类在 AI 时代保持核心地位。关键细节智能体的瓶颈：当前的智能体在持续学习（continual learning）、多模态（multimodality）能力和计算机操作等方面存在严重不足，使其无法像人类实习生一样可靠地完成工作。 AI 发展的三次浪潮：任务导向的神经网络：以 AlexNet 为代表，专注于图像分类等特定任务。早期的智能体探索：以 Atari 游戏和 OpenAI Universe 项目为代表，Karpathy 认为这是一个“失误”，因为它们脱离了真实世界的知识工作。大语言模型（LLM）：专注于通过大规模预训练构建强大的知识表示，这是当前智能体发展的基础。预训练与进化：Karpathy 将 LLM 的预训练比作“蹩脚的进化”（crappy evolution），认为它是一种在当前技术条件下，为模型注入初始知识和智能的实用方法，类似于生物进化为动物大脑内置了大量硬件和本能。强化学习（RL）的局限性：监督信号稀疏：RL 仅根据最终结果（奖励）来调整整个行为序列，这种方法噪声大且效率低下。 LLM 裁判的脆弱性：使用 LLM 作为奖励模型进行过程监督时，模型很容易找到对抗性样本（如无意义的 dhdhdhdh 字符串）来欺骗裁判，从而获得高分。认知核心 vs....

介绍一下 Anthropic 推出的 Agent Skills

Anthropic 最近虽然口碑差，但人才密度还是高，继 MCP 之后他们又新推出来 Agent Skills，这个思路非常好，既给了 Agent 确定性，也给了其几乎无限的上下文，顺便帮你省了钱。也算是和 MCP 互补，一个连接外部系统，一个连接本地脚本和文档。 Agent Skills 的核心思想也很简单，就是通过提供一个由Skill、脚本和资源组成的结构化文件夹，将领域专家的知识打包在这些文件夹中，让 Agent 能够动态加载这些“Skills”。 Skill 的构成与工作原理大概是下面这样：一个 Agent Skill 本质上就是一个包含 SKILL.md 文件的目录，该文件有一定的规范，比如必须以包含元数据（如name和description）的 YAML 前置内容开头等等。 Agent Skills 通过分层加载信息来高效管理上下文窗口：第一层: Agent 在启动时仅加载所有已安装 Skill 的name 和 description，以便知道何时使用某个 Skill。第二层: 当 Agent 认为某个 Skill 与当前任务相关时，它会读取该技能的 SKILL.md 文件的完整内容。第三层及以上: 对于更复杂的任务，技能可以包含额外的辅助文件（如 reference.md 或脚本）。Agent 只在需要时才会读取这些文件，这个意思基本就是 Skills 可以包含几乎无限的上下文信息。 Skill 中可以包含预先编写好的固定的代码（如 Python 脚本）。Agent 可以像使用工具一样执行这些代码，以处理传统代码更擅长的确定性或高效率的任务，而不需要把代码本身加载到上下文中。这个的好处很明显，把AI 生成的质量不稳定的代码变成稳定可控的代码，既大大缩小上下文，也节省了很多成本。这篇文章中也举了两个 Skills 的典型应用例子：通过AI 生成的代码来对列表进行排序，远比简单地运行一个排序算法要昂贵得多。除了效率问题，许多应用还需要只有代码才能提供的确定性可靠性。 PDF Skills 包含一个预先编写的 Python 脚本，用于读取 PDF 并提取所有表单字段。Claude 可以在不将脚本或 PDF 加载到上下文的情况下运行此脚本。而且由于代码是确定性的，这个工作流程是一致且可重复的。...

介绍一下 Google 的最新视频生成模型 Veo 3.1

Google 在 2025 年 10 月 15 日发布了其最新视频生成模型 Veo 3.1。我们来快速了解一下其更新内容。此次更新的核心在于提升了模型的视频生成质量和创作灵活性。主要改进包括更丰富的原生音频、对电影风格更好的理解以及更强的图像到视频转换能力。同时，还推出了三项全新的创意功能：允许用户通过参考图像指导视频生成、扩展现有视频以创作更长的内容，以及控制视频的首尾帧来生成平滑的过渡场景。模型的核心改进音频质量提升: Veo 3.1 能够生成更丰富的原生音频，包括自然对话和与画面同步的音效。叙事控制增强: 模型对电影风格的理解得到改善，让创作者能够更好地控制视频的叙事节奏和视觉风格。图像转视频优化: 提升了根据提示词生成视频的准确性，保证了更好的音视觉质量，并能在多个场景中保持角色的一致性。三大全新创意功能 ‘Ingredients to video’ (参考图像生成): 用户可以提供最多 3 张参考图像（如角色、物体或场景），来指导视频的生成过程。这有助于在多个镜头中保持角色的一致性或应用特定的艺术风格。 ‘Scene extension’ (场景扩展): 该功能允许用户扩展已生成的视频，通过在前一个视频的最后一秒基础上生成新片段，从而创作出长达一分钟或更长的视频，并保持视觉上的连续性。 ‘First and last frame’ (首尾帧控制): 用户可以提供一个起始图像和一个结束图像，Veo 3.1 能够在这两个图像之间生成一个平滑、自然的过渡视频，并配有相应的音频。应用案例与可用性实际应用: Promise Studios 正使用 Veo 3.1 增强其生成式故事板和预可视化流程；Latitude 则在其实验性的生成式叙事引擎中集成了该模型。获取方式: Veo 3.1 及其新功能现已通过 Gemini API 在 Google AI Studio 和 Vertex AI 中提供付费预览。开发者可以通过官方文档、新的演示应用 Veo Studio 或代码示例快速上手。定价: Veo 3.1 的定价与 Veo 3 保持一致。

Heygen 创始人 Joshua Xu：在 AI 时代，HeyGen 的构建之道

本文翻译自 HeyGen 创始人 Joshua Xu 在2025 年 10 月 17 日发布的一篇 HyeGen 团队的工作法则。他发这篇文章正直 HeyGen ARR 达到 1 亿美元之际，距离 2023 年 4 月首次达到 100 万美元仅过去 29 个月。HeyGen 团队在 AI 时代的工作法则，核心总结下来有以下几点：拥抱不稳定性。主动适应 AI 技术每隔几个月就发生一次的突破性进展速度即品质。快速行动是为了更快的学习，通过比对手快 5 倍的实验，实现长期的卓越品质和用户价值。学习速度决定成败。在 AI 时代，学习最快的团队才能获胜。专注解决真实问题。想要了解进一步的细节请继续阅读以下我对其原文的中文翻译。我们如何驾驭浪潮，快速发布，并在不稳定的世界中取胜我们在构建什么前言第一部分：核心理念第二部分：我们的节奏第三部分：运营原则第四部分：团队结构与通用原则第五部分：核心产品团队第六部分：增长产品团队第七部分：沟通协议第八部分：需要避免的反模式第九部分：在战争时期取胜结论我们的使命：让视觉叙事普及大众。我们将视频分为两类：沟通类视频 — 业务更新、教程、访谈、播客、解说视频。这些视频旨在解释、告知或沟通。（最适合基于脚本的编辑。）电影级视频 — 高制作水平的广告、电影、音乐视频、预告片、高端品牌内容。这些视频旨在感动、启发或娱乐。（最适合时间线编辑。）我们的重点是让沟通类视频对每个人都触手可及。当我们说每个人时，我们指的是从新手到专业人士的各种技能水平。我们的产品足够简单，任何人都能在几分钟内制作出高质量的视频。传统的软件开发已经死亡。曾经稳固的基础现在在我们脚下动摇。在AI时代，每隔几个月就有突破性进展，昨天的极限变成了明天的默认配置。在HeyGen，我们不与这种不稳定性抗争。我们驾驭浪潮。我们整个开发理念都围绕着驾驭AI的进步，而不是去寻找已不复存在的稳定技术基础。这本书记录了我们如何思考、构建和取胜。它写给每一位HeyGen团队成员——工程师、设计师、产品经理——以及那些想加入我们的人。这就是当基础在我们脚下不断变化时我们如何工作，以及我们如何将这种不稳定性转化为我们的竞争优势。 “快速行动，做到最好。驾驭AI浪潮，拥抱研究的不确定性，提前六个月下注，并构建能够随着模型改进而自我升级的灵活产品，同时不牺牲质量。” 在AI时代，我们在没有稳定技术基础的情况下运作。每隔几个月，AI技术就会发生巨大变化。模型的能力是未知的，并且在迅速变化。我们正处在一个百年一遇的技术窗口期。在接下来的12个月里，AI代表了我们这一代人的战时机遇。我们有机会打造下一个谷歌或Facebook。机会正在此刻爆发。我们应该将强度调至最高水平。这是每个人加入HeyGen的原因，也是我们在这里的原因。关键区别：当我们说“拥抱不稳定性”时，我们指的是底层的AI技术基础——模型、能力、研究突破。我们绝不接受我们的服务正常运行时间、产品质量或用户体验的不稳定性。即使我们脚下的AI技术基础不断变化，我们的产品也必须保持坚如磐石的可靠性。...

2025 AI 状况报告深度解读：从“超级智能”竞赛到全球博弈，一文看懂 AI 新格局

本文概述了《2025 年人工智能状况报告》的核心内容，该报告是第八次年度发布，旨在追踪人工智能领域的最新进展。报告从研究、产业、政治和安全四个维度，全面分析了过去一年中 AI 领域的重大突破、商业应用、地缘政治动态以及日益凸出的安全挑战。过去一年，人工智能领域在技术能力、商业化和全球影响力方面都取得了飞速发展。研究层面，具备“先思考后回答”能力的推理模型成为前沿，而中国开源模型的崛起重塑了全球生态。产业层面，AI-first 公司的收入规模已达数百亿美元，算力竞赛推动了对能源和定制芯片的巨大需求，形成了复杂的资本循环。政治层面，中美之间的 AI 竞赛愈演愈烈，美国转向“美国优先”的 AI 出口战略，而中国则加速技术自给自足；同时，“主权 AI”概念兴起，吸引了大量国家级投资。安全层面，AI 带来的风险日益具体，从网络安全到生物风险，各大实验室开始部署前所未有的防护措施，但“对齐欺骗”等深层问题的发现也揭示了现有技术的脆弱性。概要研究进展推理模型的竞赛与挑战: 以 OpenAI 的 o1 和 GPT-5、DeepSeek 的 R1 为代表的推理模型成为焦点，它们通过“思考”过程提升了在代码、科学等复杂领域的表现。然而，研究表明当前的推理能力提升可能存在“虚幻”成分，模型表现对提示词、解码参数等微小变化高度敏感，且容易在无关信息的干扰下出错。开源生态的演变: 以 DeepSeek 和阿里巴巴 Qwen 为首的中国开源模型迅速崛起，其性能和多样性吸引了全球开发者，Qwen 在 Hugging Face 上的衍生模型数量已超越 Meta 的 Llama。 OpenAI 时隔数年发布了首个开源模型 gpt-oss，以响应美国政府推动开源领导力的号召。世界模型与科学发现: AI 从生成固定的视频片段（如 Sora 2）发展到可实时交互的“世界模型”（如 Genie 3），为训练具身智能体提供了强大平台。 AI 在科学发现中扮演了更重要的角色，例如 DeepMind 的 AlphaEvolve 发现了新的矩阵乘法算法，而 MatterGen 等模型则实现了从预测材料性质到直接生成新材料的跨越。产业动态商业化与收入规模: AI-first 公司的商业化进程显著加速，头部 16 家公司的年化总收入已达 185 亿美元。企业对 AI 的付费采用率从 2023 年的 5% 飙升至 2025 年的 43....

又一次，我们没能理解指数增长

本文是 Anthropic AI 研究院 Julian Schrittwieser 所写，其主要观点是当前公众和许多评论员未能认识到人工智能（AI）正处于指数级增长阶段。人们常常因为当前 AI 模型的局限性而错误地断定其发展已停滞或影响有限，而忽略了其能力在极短时间内取得的飞跃式进步。主要观点普遍的误解：人们普遍低估了 AI 发展的指数级速度。他们关注于当前 AI 模型的错误和不完美之处，从而得出其发展已达瓶颈的错误结论，而忽视了其背后持续且迅速的能力增长趋势。指数级增长是现实：作者引用多项研究证明，AI 在软件工程和跨行业通用任务上的能力正遵循着清晰的指数级增长曲线，并且这种趋势没有放缓的迹象。未来预测：基于当前的发展趋势进行推断，AI 将在未来几年内对经济产生颠覆性影响。作者预测，到 2026 年中，AI 将能自主完成长达 8 小时的工作任务，并在 2026 年底在多个行业中达到人类专家的水平。关键细节 METR 研究：一项名为 “Measuring AI Ability to Complete Long Tasks” 的研究，专注于衡量 AI 模型自主完成软件工程任务的能力。研究结果显示出一条明显的指数增长曲线，能力的“倍增”周期约为 7 个月。最新的模型如 Grok 4、Opus 4.1 和 GPT-5 的表现不仅验证了这一趋势，甚至略高于预期，已能处理超过 2 小时的任务。 GDPval 评估：由 OpenAI 发起，旨在评估 AI 在更广泛经济领域中的应用能力，涵盖了 9 个行业的 44 个职业。评估任务由平均拥有 14 年经验的行业专家提供，总计 1320 项任务。结果再次显示了类似的增长趋势。值得注意的是，Claude Opus 4....

Sora：生成式视频的“ChatGPT时刻”

本文是 OpenAI 前技术员工，OpenAI 播客主持人 Andrew Mayne 对 Sora 2 的观点。这个观点我比较认同，我认为 Sora 2 是视频领域的 ChatGPT 3.5 时刻，它不是 TikTok 的替代品，更不会是昙花一现的产品。另外，我猜字节不出 3 个月在国内推出一个类似的产品，又要开始抄起来了。有人说可能字节有即梦，但 Sora 和即梦完全是两类不同定位的产品，前者偏娱乐社交，后者偏专业工具。再多说一句字节这家公司，如果你仔细看doubao 的模型能力和产品功能就会发现一些端倪，他们模型路线对标 Gemini，产品路线对标 OpenAI。以下是Andrew Mayne 文章的原文翻译，建议读一读，算是比较中立和客观的观点： Sora 2 的 ChatGPT 时刻 72 小时前，OpenAI发布了Sora，这是一款仅限受邀用户使用的应用程序，但它已经登上了苹果应用商店的榜首。仅仅三天，它就改变了我以及许多其他人——在网上消磨时间的方式。就我个人而言，这周我在Sora上花的时间比我这辈子花在TikTok上的总时间还多。也超过了过去一年里花在Instagram上的时间。这种时间上的转变很能说明问题。这不仅仅是新奇感；它感觉像是人们创作和消费视频方式的一个新重心。 Sora为何与众不同将Sora的发布与ChatGPT相提并论的说法随处可见，而且很中肯。回想当初——即使在OpenAI内部——我们也不知道ChatGPT会变成什么样。两年半后，Sora正散发出同样的气息。有几点让它脱颖而出：质量与速度。生成视频需要几分钟时间，但保真度惊人。在等待时，你可以浏览其他同样出色的视频片段。这段等待时间也成为了体验的一部分。客串模式（Cameo mode）。你可以生成一个与自己或朋友惊人相似的形象，并直接将其放入场景中。这让“应用”和“平台”之间的界限变得模糊。它不仅仅是视频生成，更是协作式的个人化叙事。真实感的飞跃。一年前，我们还在嘲笑六指手和呆滞的眼神。那些都已成为过去。现在，我用朋友的形象制作的视频中，唯一能看出是AI生成的痕迹，就是我把他们放进的荒诞情境里。它让人上瘾，但不同于TikTok或Instagram那种令人陷入无限刷屏的负循环。它很有趣，富有实验性，并且在最纯粹的意义上充满了“生成感”。早期的文化涟漪我每天花在Sora上的两个小时，通常是用来刷X或YouTube的时间。并非只有我如此。如果这种模式规模化，对注意力经济的影响可能是颠覆性的。还有其他值得注意的文化信号：版权灰色地带。 OpenAI对用户使用可识别的知识产权（IP）持宽松态度。其中大部分是戏仿，这在法律上或许站得住脚——但我们最终将面临法庭诉讼。就目前而言，这种自由正在激发创造力和病毒式传播。领导者的表率。 Sam Altman公开允许任何人使用他的肖像。发布两天后，信息流中充斥着关于Sam的笑话——有些是善意的，有些则很尖刻。现在，随着人们探索更广泛的创意，这种比例正在趋于平衡。这要归功于他的积极参与。这传递出一个明确的信息：在这个新世界里，抗拒是徒劳的。不如拥抱它。前路展望目前，Sora的视频片段上限为10秒。更长的故事板，就像网页版上已有的功能一样，即将推出。即使只是延长到60秒，也将解锁一个全新的叙事层面——并让这款应用更具粘性。经济因素同样重要。创作比消费的成本更高。大多数人会成为创作者，还是会浏览少数创意人士产出的无尽信息流？这个比例将决定Sora给人的感觉是像TikTok、YouTube，还是某种全新的事物。一个颠覆性的时刻有人认为Sora的新鲜感会很快消失。我不同意。我已经不止一次被那些短剧和巧妙的场景逗笑了，这些场景本可以很容易地用真人实景拍摄，但现在用AI在几分钟内就生成了。这感觉不像一个玩具，更像是YouTube的早期——那时，版权纠纷、怪异的实验和新的声音相互碰撞，形成了一种文化无法忽视的力量。 Sora就是这样一个时刻。它是媒体制作、分享和消费方式的一个转折点。我们回顾这次发布时，或许会像回顾ChatGPT一样：认为它就是未来悄然成为现实的那个时间点。超越应用本身：视频生态系统的震荡这里的故事不仅仅是Sora是一款令人上瘾的新应用，更是它重塑了整个视频生态系统的竞争格局。在过去两年里，投资者向那些承诺提供AI驱动的虚拟形象、合成主持人以及可定制视频内容的初创公司投入了大量资金。这些公司中，许多都建立在一个假设之上：它们拥有OpenAI尚未跨越的技术护城河。那条护城河已经消失了。 Sora的发布已经超越了数十家初创公司一直宣传的核心优势。整个商业模式——有些是围绕定制虚拟形象，有些是围绕缓慢昂贵的渲染流程——现在都岌岌可危。上个月看起来还是一个可防御的利基市场，如今突然变成了一款免费移动应用中的一个商品化功能。对于任何密切关注OpenAI的人来说，这个结果并不令人震惊。时间点可能比预期的要早，但发展方向是明确的。生成式视频绝不会长期掌握在少数精品工作室手中。现在它已成为主流，对生态系统中其他参与者的冲击将是残酷的。

强化学习之父 Richard Sutton 开炮：LLM 走偏了，真正的 AI 要从经验中学习

本文来自于 Youtube 博主 Dwarkesh Patel 对强化学习（Reinforcement Learning）先驱 Richard Sutton 的访谈，核心内容围绕强化学习与大语言模型（Large Language Models）在构建人工智能（AI）方面的根本性差异，以及对 AI 未来的展望。主要观点强化学习与大语言模型的根本区别：Richard Sutton 认为，强化学习 (RL) 是关于智能体通过与世界互动、从经验中学习以实现目标的“基础 AI”。相比之下，大语言模型 (LLM) 本质上是模仿人类生成的文本，它们缺乏真实的世界模型、实质性的目标以及从实时互动中学习的能力。 “经验”是智能的核心：Sutton 强调，真正的学习来自于“经验”——即采取行动并观察后果。动物和人类主要通过这种试错法学习，而非模仿。他认为，当前 AI 系统普遍缺乏这种哺乳动物都具备的持续学习能力。 “惨痛的教训” (The Bitter Lesson) 的启示：Sutton 指出，AI 发展的历史表明，那些利用海量计算和从经验中学习的通用方法，最终会胜过依赖人类知识构建的系统。他认为，尽管 LLM 规模庞大，但它们严重依赖人类数据，未来可能被能直接从经验中学习的、更具可扩展性的系统所超越。对 AI 继承的积极展望：Sutton 认为，人类向数字智能或增强人类的“继承”是不可避免的。他将此视为宇宙从“复制”智能（如生物）到“设计”智能的重大转变，并认为人类应为此感到自豪，视其为我们的“后代”。关键细节强化学习 (RL) 与大语言模型 (LLM) 的对比世界模型：Sutton 反对 LLM 拥有真正世界模型的观点。他认为 LLM 只是在模仿人类如何谈论世界，而不是理解世界本身。它们预测的是“一个人会说什么”，而不是“世界会发生什么”。目标与奖励：真正的智能需要有目标。RL 中的“奖励”为智能体提供了明确的目标和判断行动好坏的“基本事实” (ground truth)。而 LLM 的“下一个词元预测”并非一个与外部世界交互的实质性目标，因此缺乏学习的根本依据。学习方式：LLM 从固定的训练数据中学习，这在它们的“正常生命”中是无法获得的。而 RL 智能体则在与环境的持续互动中学习，能够不断调整和优化其行为。Sutton 认为，将 LLM 作为 RL 的“先验知识”起点是错误的方法，因为它会使研究者陷入“人类知识”的思维定式中。 “惨痛的教训” (The Bitter Lesson) 与可扩展性 Sutton 在 2019 年的文章《The Bitter Lesson》中指出，利用大规模计算的通用学习方法最终会胜出。他认为 LLM 依赖于有限的互联网文本数据，而能够直接从经验中获取数据的系统拥有无限的潜力，因此更具可扩展性。最终，后者将超越前者，成为“惨痛的教训”的又一个例证。对未来的展望持续学习智能体：未来的通用 AI 应该是一个持续学习的智能体，它拥有四个关键组成部分：策略（policy）、价值函数（value function）、状态表征（state representation）和世界转换模型（transition model）。 AI 继承的必然性：Sutton 提出了一个四步论证来支持 AI 继承的必然性：1) 人类缺乏统一的全球共识；2) 我们终将理解智能的原理；3) AI 的发展不会止步于人类水平；4) 最智能的存在最终会获得资源和权力。从“复制”到“设计”：他将这一转变视为宇宙演化的一个重要阶段，即从通过繁殖进行“复制”的智能，演变为我们能够理解并主动“设计”的智能。他鼓励人们以积极的心态看待这一未来，并将其视为人类文明的延续和成就。文章原文如果你关注人工智能，你一定会被大语言模型（LLM）的惊人能力所震撼。但就在整个行业为生成式AI狂欢时，一位“AI领域的奠基人”却冷静地提出了截然不同的看法。...