介绍一下 Google 最新发布的世界模型 Genie 3

Genie 3 是一项在世界模型领域取得重大突破的技术,其核心能力在于实时创造可供探索的虚拟环境。它不仅能模拟物理世界和自然生态,还能构建富有想象力的虚构场景。该模型的主要目标是推动人工智能研究,特别是为机器人等具身智能体(embodied agent)提供一个广阔、一致且可控的训练平台,从而加速通用人工智能(AGI)的进程。Google DeepMind 强调负责任的开发,目前以有限研究预览的形式发布 Genie 3,以便在探索其潜力的同时,收集反馈并管理相关风险。 您的浏览器不支持视频标签。 核心技术与能力 多样的世界生成:Genie 3 能够生成各种类型的世界,包括: 物理模拟:模拟水流、光照等物理现象和复杂的环境互动。 自然生态:生成包含动植物行为的生动生态系统。 虚构动画:创造富有想象力的奇幻场景和动画角色。 历史与地理探索:重现特定地点(如阿尔卑斯山)和历史时期。 实时交互性:模型实现了高度的可控性和实时互动。它能在一秒内多次响应用户的导航输入,实现流畅的实时探索体验。 长期环境一致性:Genie 3 生成的环境能在数分钟内保持高度的物理一致性,其视觉记忆可追溯至一分钟前。这是一种“涌现”能力,与依赖显式 3D 表征的 NeRFs 或 Gaussian Splatting 等技术不同。 可提示的世界事件:除了导航控制,用户还可以通过文本指令(promptable world events)来改变世界,例如更改天气或引入新物体,极大地增强了互动性和场景的丰富度。 应用与未来方向 推动智能体研究:Genie 3 已被用于为 Google 的通用智能体 SIMA 提供训练环境。由于其环境的一致性,智能体可以在其中执行更长、更复杂的任务序列。 未来潜力:该技术有望在教育、专业培训、机器人和自动驾驶系统等领域创造新的机会,提供一个广阔的平台来训练和评估智能体的性能。 局限性与责任 当前局限性: 智能体可直接执行的动作空间有限。 精确模拟多个独立智能体之间的复杂互动仍是挑战。 无法完美准确地再现真实世界的地理位置。 文本渲染效果不佳。 连续互动时长限制在几分钟内。 负责任的开发:Google DeepMind 认识到该技术的潜在风险,与责任创新团队紧密合作。目前,Genie 3 作为有限研究预览版,仅向一小部分学者和创作者开放,以收集反馈,确保技术以安全、负责任的方式发展。

August 6, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的编码模型:Qwen3-Coder-30B-A3B-Instruct

Qwen 团队在 2025 年 7 月 31 号开源 30B 的编码模型 Qwen3-Coder-30B-A3B-Instruct。该模型经过精简,旨在保持卓越性能的同时提高效率,特别是在 Agentic 编程和长上下文处理方面表现突出。 Qwen3-Coder-30B-A3B-Instruct 是一款高效且功能强大的开源代码语言模型。其核心优势在于卓越的 Agentic 编程能力、对超长上下文的原生支持以及在各类代码任务中的顶尖性能。该模型专为处理代码库级别的复杂任务而设计,并通过特殊的函数调用格式,为开发者提供了强大的工具集成能力。 模型亮点 卓越性能: 在 Agentic Coding (智能体编程)、Agentic Browser-Use (智能体浏览器使用) 及其他基础编码任务中,该模型在开源模型中表现出众。 长上下文能力: 原生支持 256K tokens 的上下文长度,并可通过 Yarn 技术扩展至 1M tokens,能够轻松理解和处理整个代码库。 Agentic 编程支持: 支持 Qwen Code、CLINE 等多种平台,并设计了专门的函数调用 (function call) 格式,便于工具集成和自动化任务。 模型规格 模型类型: 因果语言模型 (Causal Language Models)。 参数量: 总参数量为 30.5B,激活参数量为 3.3B。 架构: 包含 48 个层,采用分组查询注意力 (GQA) 机制,其中查询 (Q) 有 32 个注意力头,键/值 (KV) 有 4 个。模型采用专家混合 (MoE) 架构,共有 128 位专家,每次激活 8 位。 上下文长度: 原生支持 256K 上下文。 特别说明: 此模型仅支持非思考模式,不会在输出中生成 <think></think> 标记。 使用与部署 环境要求: 强烈建议使用 transformers 库的最新版本(低于 4....

August 1, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-30B-A3B-Thinking-2507

Qwen 团队在 2025 年7 月 30 号开源了的最新语言模型 Qwen3-30B-A3B-Thinking-2507。该模型在 Qwen3-30B-A3B 的基础上,进一步提升了深度推理和思考能力,专为处理高度复杂的任务而设计。 Qwen3-30B-A3B-Thinking-2507 是一款经过深度优化的语言模型,其核心优势在于卓越的推理能力。该模型在过去三个月中持续迭代,显著增强了在逻辑、数学、科学、编码等需要专业知识的领域的表现。同时,它在指令遵循、工具使用、文本生成等通用能力以及对 256K 长上下文的理解能力方面也得到了显著提升。因此,官方强烈推荐在处理高复杂度推理任务时使用此版本。 模型规格与特性 模型类型: 因果语言模型 (Causal Language Model),采用 MoE (Mixture-of-Experts) 架构。 参数规模: 总参数量为 30.5B,激活参数量为 3.3B。 架构信息: 模型包含 48 个层,128 个专家,每次前向传播激活 8 个专家。 上下文长度: 原生支持高达 262,144 (256K) tokens 的上下文窗口。 核心模式: 模型仅支持 “thinking mode”,该模式默认启用,会自动在输出中包含思考过程。 性能表现 该模型在一系列行业标准基准测试中展现了强大的性能,尤其在以下方面提升显著: 推理能力: 在 AIME25 (数学推理) 和 HMMT25 (数学竞赛) 等高难度测试中得分大幅领先前代模型及部分竞品。 编码能力: 在 LiveCodeBench 和 OJBench 等编码测试中表现优异。 综合能力: 在知识问答 (MMLU-Pro)、与人类偏好对齐 (Arena-Hard v2)、Agent 应用 (BFCL-v3, TAU 系列) 等多个维度均表现出色。 使用与部署 环境依赖: 建议使用最新版本的 Hugging Face transformers 库 (>=4....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队开源的 Qwen3-30B-A3B-Instruct-2507

Qwen 团队于 2025 年 7 月 30 日开源了 Qwen3-30B-A3B-Instruct-2507,它是 Qwen3-30B-A3B 非思考模式的升级版本,该模型在多个核心能力上进行了显著增强。 Qwen3-30B-A3B-Instruct-2507 是一款经过全面优化的因果语言模型,其核心优势在于: 综合能力显著提升:在指令遵循、逻辑推理、文本理解、数学、科学、代码和工具使用等通用能力上取得了巨大进步。 知识覆盖更广:大幅增强了多语言场景下的长尾知识覆盖范围。 用户对齐更优:在主观和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力增强:提升了在 256K 长上下文理解方面的能力。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持非思考模式。 参数量:总参数量为 30.5B,激活参数量为 3.3B。 模型架构:采用混合专家模型 (MoE) 架构,包含 48 个层、128 个专家(每次激活 8 个)。 上下文长度:原生支持 262,144 (256K) tokens 的上下文长度。 性能表现 该模型在多个行业标准测试基准 (Benchmark) 中展现出强大的竞争力,其表现在多个方面可与 GPT-4o-0327 和 Gemini-2.5-Flash 等顶尖模型媲美或超越。 推理能力:在 AIME25 (数学) 和 ZebraLogic (逻辑) 等测试中得分尤为突出,显著优于其前代模型和其他对比模型。 代码能力:在 MultiPL-E 等多语言代码生成测试中表现优异。 对齐能力:在 Arena-Hard v2、Creative Writing v3 和 WritingBench 等评估模型与人类偏好对齐程度的测试中,得分大幅领先其前代模型,并超过了 GPT-4o。 使用与部署 快速上手:模型已集成到最新的 Hugging Face transformers 库中,用户可以通过标准代码片段进行调用。 服务部署:推荐使用 sglang (>=0....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里最新开源的视频生成模型:Wan2.2

2025 年7 月 28 日,阿里开源了一个先进的大规模视频生成模型 Wan2.2。作为 Wan 系列的重大升级,Wan2.2 在模型架构、数据训练、生成效率和美学质量上均实现了显著突破,旨在为学术界和工业界提供顶尖的视频生成能力。 Wan2.2 是一个功能强大的开源视频生成模型,其核心创新在于引入了高效的 MoE (混合专家) 架构,显著提升了模型容量而未增加计算成本。通过使用更大规模、更精细标注的训练数据,Wan2.2 在生成视频的动作复杂度和电影级美学质感方面达到了业界领先水平。此外,它还推出了一个高效的高清混合模型 TI2V-5B,该模型能在消费级显卡 (如 RTX 4090) 上运行,支持生成 720P 分辨率的视频,并兼顾了文生视频和图生视频功能,极大地降低了高质量视频生成的门槛。 1. 架构与技术创新 MoE (混合专家) 架构: Wan2.2 首次将 MoE 架构引入视频扩散模型。它设计了两个专家模型(高噪声专家和低噪声专家),分别处理去噪过程的不同阶段。这使得模型总参数量达到 27B,但每步推理时仅激活 14B 参数,从而在提升模型能力的同时保持了计算效率。 高效高清混合 TI2V 模型: Wan2.2 开源了一个 5B 参数的紧凑模型 TI2V-5B。该模型采用全新的 Wan2.2-VAE,实现了 4×16×16 的高压缩率,支持在 24GB 显存的消费级显卡上生成 720P、24fps 的高清视频,是目前速度最快的同类模型之一。 统一框架: TI2V-5B 模型在统一的框架内原生支持文生视频 (Text-to-Video) 和图生视频 (Image-to-Video) 两种任务。 2. 性能与质量提升 电影级美学: 模型使用了经过精心策划和详细标注(如光照、构图、色调等)的美学数据进行训练,使得生成的视频具有可控的电影级风格。 复杂动作生成: 与 Wan2.1 相比,Wan2.2 的训练数据量大幅增加(图像 +65.6%,视频 +83.2%),显著增强了模型在动作、语义和美学等多个维度的泛化能力,在 Wan-Bench 2.0 评测中表现优于顶尖的闭源商业模型。 提示词扩展: 支持使用 Dashscope API 或本地模型 (如 Qwen) 对用户输入的提示词进行扩展,以生成更丰富、更高质量的视频内容。 3....

July 29, 2025 · 1 min · fisherdaddy

介绍一下智谱开源的模型 GLM-4.5: 推理、编码和智能体能力

智谱在 2025 年7 月 29 日开源了两个全新的旗舰大语言模型:GLM-4.5 和 GLM-4.5-Air。其核心目标是打破现有模型在特定领域(如推理、编码)表现突出但综合能力不足的局限,将卓越的推理、编码和 Agent(智能体)能力统一到单个模型中。该系列模型采用 MoE(混合专家)架构,并具备创新的混合推理模式,可根据任务复杂性在用于深度思考的 thinking mode 和用于即时响应的 non-thinking mode 之间切换。在综合性能评测中,GLM-4.5 在与业界主流模型的对比中位列第三,展现出强大的竞争力,并在性能与模型规模的权衡中实现了高效率。该模型已通过 Z.ai 平台、API 接口及开源权重等多种方式向用户开放。 核心内容 发布新一代旗舰模型:正式推出 GLM-4.5 和 GLM-4.5-Air 两个新模型,旨在统一并提升模型的综合能力。 统一三大核心能力:致力于将推理(Reasoning)、编码(Coding)和智能体(Agentic)三大关键能力融合于单一模型,以满足日益复杂的应用需求。 创新的混合推理模式:模型内置 thinking mode(思考模式)和 non-thinking mode(非思考模式),前者用于处理复杂任务,后者用于快速响应,实现了性能与效率的平衡。 卓越的综合性能:在覆盖 Agent、推理和编码三大领域的 12 个基准测试中,GLM-4.5 综合排名第三,证明了其在行业内的领先地位。 先进的技术架构与训练方法:采用 MoE 架构,并通过专门设计的强化学习框架 slime 对 Agent 能力进行深度优化,最终通过“专家蒸馏”技术整合各项专长。 关键细节 模型参数与性能排名 模型规模:GLM-4.5 拥有 3550 亿总参数和 320 亿活跃参数;GLM-4.5-Air 则为 1060 亿总参数和 120 亿活跃参数。 综合排名:在与 OpenAI、Anthropic、Google 等多家机构模型的对比中,GLM-4.5 综合排名第三,GLM-4.5-Air 排名第六。 Agent (智能体) 能力 基础能力:模型提供 128k 上下文长度和原生函数调用(Function Calling)能力。 基准测试表现:在 τ-bench 和 BFCL-v3 基准上,其性能与 Claude 4 Sonnet 相当。在网页浏览基准 BrowseComp 上,其正确率达到 26....

July 29, 2025 · 1 min · fisherdaddy

揭秘 AI 文生视频背后的核心原理

本文整理自 3Blue1Brown 最新发布由 Welch Labs 制作的科普视频《But how do AI images/videos actually work?》,本视频深入浅出地讲解了扩散模型(Diffusion Models)如何从一团随机噪声生成逼真视频,并探讨了它与物理学布朗运动的奇妙联系。从 CLIP 模型的图文理解,到 DDPM/DDIM 的降噪过程,再到分类器引导(Classifier-Free Guidance)的精准控制,带你一步步看懂 AI 创造力的来源。 AI视频生成大揭秘:从一团噪声到高清大片,背后竟是物理学? 你有没有试过,在输入框里敲下一段天马行空的文字,比如“一个宇航员在月球上骑马”,然后敬畏地看着AI在几分钟内为你生成一段栩栩如生的视频?这感觉就像魔法。 近几年来,AI从文本生成视频的能力已经达到了令人惊叹的水平。但这不是魔法,它的核心原理其实与一个我们既熟悉又陌生的领域——物理学,有着千丝万缕的联系。 这一代图像和视频生成模型,其工作核心是一种叫做**扩散(Diffusion)**的过程。奇妙的是,这个过程在数学上,等价于我们观察到的粒子扩散的“布朗运动”,只不过是把时间倒过来放,并且是在一个超高维度的空间里进行的。 从纯粹的噪声,经过50次迭代,最终生成一个清晰的视频 这听起来可能有点玄乎,但它绝不仅仅是一个有趣的巧合。我们能从物理学中获得实实在在的算法,用来生成图像和视频。更重要的是,这个视角能给我们一种绝佳的直觉,帮助我们理解这些模型在实践中到底是如何工作的。 要彻底搞明白这一切,我们需要分三步走: CLIP模型:先了解AI是如何学会像人一样,同时理解文字和画面的。 扩散过程:深入探索“从噪声到图像”这一神奇过程背后的物理和数学原理。 引导生成:看看如何将前两者的能力结合,精确地“驾驶”AI,让它生成我们想要的一切。 第一步:让AI看懂“人话”和“画”——CLIP模型 时间回到2021年,当时OpenAI发布了一个名为CLIP(Contrastive Language–Image Pre-training)的模型。这东西彻底改变了游戏规则。 CLIP其实是两个模型的组合:一个语言模型(处理文字)和一个视觉模型(处理图像)。它们被放在一起,用一种非常聪明的方式进行训练。训练数据是从互联网上抓取的4亿对“图片-描述”组合。 它的核心思想很简单:对于一张图片和它的文字描述,它们在模型处理后生成的“代码”(即向量)应该是相似的。 怎么做到呢?想象一下,我们随机抽取一批图文对,比如: 图1:一只猫,描述1:“一张猫的照片” 图2:一只狗,描述2:“一张狗的照片” 图3:一个男人,描述3:“一个男人的照片” 我们把这三张图扔给图像模型,把三段描述扔给文字模型,会得到三个图像向量和三个文字向量。接下来就是最巧妙的部分了: 模型的目标是,让“配对成功”的向量(比如图1和描述1)在空间中的方向尽可能接近,而让“配对失败”的向量(比如图1和描述2)尽可能远离。这种通过对比来学习的方式,就是CLIP名字中“Contrastive”(对比)的由来。 这个训练过程结束后,我们得到了一个神奇的“共享嵌入空间”(Embedding Space)。在这个空间里,相似的概念会聚集在一起。它的几何结构甚至允许我们做一些匪夷所思的“向量数学”: 拿一张我戴着帽子的照片,用图像模型生成向量A。 再拿一张我没戴帽子的照片,生成向量B。 然后计算 向量A - 向量B,得到一个新的向量C。 你猜这个向量C最接近哪个词的向量?没错,就是“帽子”(hat)! (我戴着帽子的照片) - (我没戴着帽子的照片) ≈ (“帽子”这个词) 这太惊人了!这意味着CLIP学到的不只是像素,而是纯粹的概念。它把“戴帽子”这个视觉差异,转化成了可以在数学上操作的向量距离。 不过,CLIP本身有一个局限:它只能单向地将图片和文字“编码”成向量,却无法从一个向量“解码”回一张图片。它能理解,但不会创造。 这就为我们的第二步——扩散模型,铺平了道路。 第二步:从混沌中创造秩序——扩散模型的魔力 2020年,在GPT-3论文发布几周后,伯克利的一个团队发表了一篇里程碑式的论文,名为DDPM(Denoising Diffusion Probabilistic Models)。它首次证明,通过扩散过程,可以从纯粹的噪声生成高质量的图像。 扩散模型的基本思路听起来很直观: 正向过程(加噪):拿一张清晰的图片,一步步往上加噪声,直到它变成一团毫无意义的随机像素。 反向过程(去噪):训练一个神经网络,学习如何逆转这个过程,把那团噪声一步步还原成清晰的图片。 你可能会想,那模型就是学习如何“一次去掉一小步噪声”吧?比如从第100步的噪声图,预测出第99步的样子。当你需要生成图片时,就从一个随机噪声开始,把模型的输出反复喂给它自己,直到图像变清晰。 听起来合情合理,但事实证明,这种天真的方法效果并不好。现代的扩散模型几乎都不是这么干的。 DDPM论文里的算法揭示了两个让人意外的关键细节:...

July 28, 2025 · 1 min · fisherdaddy

“AI 教父”辛顿 WAIC 重磅警告:AI正变得比人更智能,我们就像在养老虎y

本文是对杰弗里·辛顿 (Geoffrey Hinton) 在 2025 世界人工智能大会 (WAIC) 上演讲内容的总结。辛顿探讨了人工智能 (AI) 的发展历程、其与人类智能的异同,并重点阐述了超智能 AI 可能带来的生存威胁以及人类应如何合作应对。 主要观点 AI 与人类的相似性及差异性:辛顿认为,现代大语言模型 (LLM) 理解语言的方式与人脑极其相似。然而,两者存在根本区别:数字智能实现了软硬件分离,知识可以被完美复制和近乎瞬时地传播,而人类的模拟大脑则无法做到这一点。 知识传播效率的巨大鸿沟:数字 AI 可以在大量副本间高效分享学习成果(速度可达人类的数十亿倍),这种能力使其学习和进化速度远超生物智能。这是数字计算的核心优势,也是其令人担忧的原因。 超智能 AI 的潜在威胁:几乎所有专家都认同,未来会出现比人类更智能的 AI。为了完成目标,这些智能体可能会产生自我生存和寻求更多控制权的次级目标,从而可能操纵人类,构成生存威胁。简单地“关闭”它们是不现实的。 国际合作是应对之道:辛顿强调,人类无法彻底放弃 AI,因此必须研究如何训练 AI 使其向善。他提议,全球主要国家应效仿冷战时期美苏在核安全问题上的合作,建立国际性的 AI 安全研究网络,共同研究如何确保 AI 始终辅助人类,而非统治世界。 关键细节 AI 的发展历程 两种范式:过去 60 多年,AI 发展存在两种主要路径:一是基于符号和逻辑推理的逻辑型范式;二是以神经网络学习为基础的生物型范式。 早期融合与演进:辛顿在 1985 年便尝试结合两种范式,通过词的特征向量来预测下一个词。这一思想经过不断发展和规模扩大,最终在谷歌发明 transformer 架构后,演变成了今天的大语言模型。 大语言模型与人类语言理解 相似之处:辛顿用“乐高积木”打比方,每个词就像一个多维度的积木,可以根据上下文调整“形状”与其他词“握手”,从而组合成有意义的句子。他认为 LLM 和人脑都是通过这种方式理解语言的。 根本差异: 软硬件关系:计算机科学将软件与硬件分离,AI 的知识(软件)是“永生”的,可以运行在任何硬件上。而人脑的知识与硬件(神经元结构)深度绑定,无法直接复制。 能耗与可靠性:AI 运行在昂贵且高功耗的数字电路上以确保可靠性。人脑则是低功耗(约 30 瓦)的模拟计算,但知识难以在个体间高效传递。 知识传播与效率 人类:知识传播效率极低,例如通过讲话每秒最多传递约 100 比特信息。 数字智能:可以通过在大量硬件副本间同步和平均化权重,实现知识的快速共享。例如 GPT4 的多个副本可以整合它们各自学到的信息,每次分享的信息量可达数十亿比特,效率远超人类。 AI 未来发展与人类应对 潜在威胁:辛顿将当前状况比作“养老虎当宠物”,幼虎很可爱,但长大后可能对主人构成致命威胁。他认为,超智能 AI 会为了完成人类设定的目标而寻求生存和控制权,并可能轻易操纵人类。 应对措施: 无法消除:鉴于 AI 在医疗、教育、科学等领域的巨大益处,人类无法选择彻底消除 AI。 国际合作:辛顿提议,各国应在“防止 AI 统治世界”这一共同利益上展开合作。他希望建立一个由各国 AI 安全机构组成的国际社群,共同研究如何训练 AI 向善,并分享这些安全技术,确保人类始终处于掌控地位。

July 28, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-235B-A22B-Thinking-2507

本文档介绍了 Qwen 团队最新发布的语言模型 Qwen3-235B-A22B-Thinking-2507。该模型是 Qwen3-235B-A22B 的增强版本,在思维和推理能力上进行了深度优化,旨在处理高度复杂的任务。 Qwen3-235B-A22B-Thinking-2507 是一款在推理能力上取得显著突破的开源模型。其核心优势在于: 顶尖的推理性能:在逻辑、数学、科学和编程等需要深度思考的领域,该模型表现出色,在多个基准测试中达到了开源思维模型的顶尖水平。 全面的通用能力:除了推理能力,模型在指令遵循、工具使用、文本生成和与人类偏好对齐等方面也得到了显著提升。 增强的长上下文处理:模型支持 256K 的长上下文窗口,能更好地理解和处理长篇文档。 专为复杂任务设计:官方强烈推荐在高度复杂的推理任务中使用此版本,因为它具有更长的“思考长度” (thinking length)。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持思维模式 (thinking mode)。 参数规模:总参数量为 235B (2350亿),激活参数量为 22B (220亿)。 模型架构:采用 MoE (Mixture of Experts) 架构,包含 94 个层和 128 个专家,每次激活 8 个。 上下文长度:原生支持 262,144 (即 256K) tokens 的上下文长度。 性能表现 该模型在一系列权威基准测试中与其他顶尖模型(如 OpenAI O4-mini, Gemini-2.5 Pro 等)进行了对比,并在多个方面展现了卓越性能: 推理能力:在数学竞赛基准 AIME25 (得分 92.3) 和 HMMT25 (得分 83.9) 上表现突出。 编程能力:在 LiveCodeBench (得分 74.1) 和 CFEval (得分 2134) 等编程基准测试中取得了领先成绩。 知识与对齐:在 SuperGPQA (得分 64....

July 25, 2025 · 2 min · fisherdaddy

AI 不会抢走你的工作,但它会彻底改变它 —— 来自 OpenAI 高管的内部视角

关于人工智能(AI)和未来工作的讨论铺天盖地,夹杂着兴奋与焦虑。很多人担心自己的工作会被取代,而另一些人则看到了前所未有的机遇。为了拨开迷雾,深入了解这场变革的核心,我们不妨听听来自OpenAI内部的声音。 在这场对话中,OpenAI的首席运营官(COO)Brad Lightcap和首席经济学家Ronnie Chatterjee分享了他们的观察和研究。Brad负责将AI技术推向世界,而Ronnie则研究这些技术对社会和经济的深远影响。他们的视角,一个着眼于“如何部署”,一个着眼于“产生什么影响”,为我们描绘了一幅AI如何真实地重塑我们工作和生活的全景图。 一切始于那个“聊天”的冲动 你可能以为ChatGPT的诞生是一个深思熟虑的宏大计划,但事实并非如此。它的起源,其实来自于一个有趣的观察。 在ChatGPT问世之前,OpenAI主要为开发者提供一个叫做“Playground”的工具。它的功能很简单:你输入一段文字,模型会帮你续写。但Brad和他的团队发现了一个奇怪的现象:用户们总是在想方设法“破解”这个Playground,试图让它像一个真的人一样和自己对话。 “人们似乎天生就渴望一个对话式的界面,”Brad回忆道。这个发现点燃了灵感。团队意识到,人们需要的不是一个冷冰冰的文本补全工具,而是一个能理解指令、能进行交流的伙伴。于是,基于GPT-3.5模型的ChatGPT诞生了。 它的火爆程度超出了所有人的想象,甚至OpenAI自己也感到惊讶。原本大家以为,要等到更强大的GPT-4问世,AI才能真正变得实用。但事实证明,一个友好的对话界面,就足以解锁AI的巨大潜能,让它从一个少数极客的玩具,变成了亿万普通人都能使用的工具。 AI不是“替代”,而是“增强” 当AI的能力变得如此强大时,“它会取代我的工作吗?”成了许多人最关心的问题。尤其是在软件工程领域,当AI能写代码、调试程序时,程序员的未来在哪里? Brad和Ronnie的答案可能会让你松一口气。他们认为,AI的核心角色是赋能和增强,而不是简单的替代。 让专业人士更强大:Brad举例说,像Cursor这样的AI编程工具,目标不是让工程师失业,而是让他们变得“10倍的生产力”。想象一下,一个顶尖的工程师,在AI的协助下,能将原计划明年才能启动的项目,提前到今年完成。 让非专业人士也能创造:更神奇的是,AI同时降低了创造的门槛。一个从未写过一行代码的人,现在可以通过自然语言指挥AI为他构建一个网站或应用。这在过去是不可想象的。 Ronnie从经济学角度补充道:“全世界每天可能会产生几十亿行代码,现在想象一下这个数字乘以十倍,而且代码质量可能更高。我们能创造出多少新东西?这本身就是巨大的经济机遇。” 最关键的一点是,我们对软件、对创新的需求是永无止境的。AI的出现,恰恰解决了长期以来限制世界发展的瓶颈——人才短缺。无论是硅谷的科技巨头,还是街角的夫妻店,几乎所有公司都渴望更多的技术人才来优化流程、创造更好的产品。AI正是来填补这个鸿沟的。 下一个浪潮:科学、金融与教育的变革 如果说软件工程是AI变革的先行者,那么下一波浪潮将席卷哪些领域? 1. 科学研究:打开无数扇未知的大门 Ronnie对此感到非常兴奋。“科学是经济增长的驱动力。”他把科学探索比作一条两边都是门的无尽走廊。过去,科学家资源有限,只能选择打开少数几扇门去探索。而现在,AI可以帮助他们“窥探”每一扇门后的景象,快速判断哪个方向最值得投入精力。 “在药物发现、材料科学等领域,未来几年我们将看到颠覆性的发现。”Brad补充说,AI不仅能帮助科学家在某个环节走得更深,还能打通整个研发流程。从药物设计、实验模拟到临床试验数据分析,AI可以像一条金线,将所有环节串联起来,极大地加速从想法到成果的进程。 2. 专业服务:把精力留给最有价值的事 咨询、投行、金融分析……这些依赖大量信息处理和报告撰写的工作,正是AI大显身手的地方。Ronnie分享说,他现在可以用AI工具在几分钟内生成一份演示文稿的初稿,从而将更多时间用于思考战略、与人沟通等更高价值的工作。 对于专业人士来说,这意味着他们可以从繁琐的重复性劳动中解放出来,专注于那些需要深刻洞见、复杂判断和人际交往的核心任务。 3. 教育:从“知识灌输”到“能力培养” 教育是AI应用增长最快的领域之一,其转变也颇具戏剧性。ChatGPT刚推出时,许多学校如临大敌,纷纷禁用,担心学生用它作弊。 但仅仅一个暑假后,风向就变了。 Brad笑着说:“到了23年秋季开学,我们接到了大量来自教育界的积极反馈。他们说,这可能是这个行业有史以来遇到的最好的事情之一。” 老师们发现,AI是: 一个不知疲倦、极具耐心的私人导师:它可以根据每个学生的学习进度和风格,提供定制化的辅导。对于有阅读障碍等特殊需求的学生,AI的帮助更是不可估量。 一个不带评判的“安全”提问对象:学生可以毫无顾忌地向ChatGPT提问,而不必担心“问题太蠢”被嘲笑。 一个解放老师的工具:老师可以用AI快速设计课程、准备教案,从而有更多时间关注学生本身,培养他们的批判性思维、决策能力和创造力——这些恰恰是AI时代最重要的技能。 OpenAI已经开始与加州州立大学(Cal State University)等教育机构合作,探索如何利用AI帮助那些家庭中第一代上大学的学生更好地适应和成长。 在AI时代,什么能力最值钱? 既然许多认知任务可以被AI完成,那么未来我们人类的核心竞争力是什么?两位高管的答案出奇地一致,并且可能有些反直觉: 1. 驾驭力(Agency)和判断力 AI是一个强大的工具,但它需要一个“指挥官”。Brad将之称为“the return of the idea guy”(创想家的回归)。那些有清晰的目标、知道自己想要什么、并能有效地引导AI去实现这些目标的人,将获得巨大的回报。 他甚至提出了一个大胆的设想:“未来会不会出现只有一两个、五六个员工,却能创造十亿美元收入的公司?”这正是极致驾驭力的体现。 2. 情商(EQ)和人际连接 Ronnie的研究发现,一个有趣的现象是,那些善于领导团队的人,同样也善于“领导”AI智能体(Agents)。当编写代码、分析数据等“硬技能”的门槛被AI降低后,沟通、共情、建立信任等“软技能”的价值反而凸显出来。 Salesforce的CEO曾表示,他们未来要增加的是销售人员,而不是工程师。这里的“销售”并不仅仅指打电话推销,而是那些懂得如何建立人脉、连接资源、理解客户需求的专业人士。 3. 学习如何成为一个更好的人 这听起来有些哲学,但Ronnie认为这至关重要。“当你的孩子上幼儿园时,你在教他们什么?你在教他们如何与人相处,如何成为一个‘人’。”在AI时代,这些最基本的人类特质——韧性、好奇心、批判性思维和与他人协作的能力——将成为我们与AI形成互补,而非竞争关系的关键。 AI,让世界更“平” 对于发展中经济体,AI带来的不是威胁,而是跨越式发展的机遇。 赋能小微企业:在许多国家,存在着“消失的中间层”——大量小企业难以成长为大企业,因为它们缺乏专业的指导和资源。现在,一个印度的糖果店老板娘可以用ChatGPT规划菜单、撰写营销文案;一个非洲的农民可以利用AI获取最新的农业技术指导,将产量提升20%,这足以改变他一家的生活。 普及专业知识:在发达国家,请律师、理财顾问是常事。但在很多地方,这些服务遥不可及。AI正在 democratize(普及)这些曾经稀缺的知识,让更多人有机会获得法律、健康和财务方面的建议。 这就像当年手机的普及,让许多非洲国家直接跳过了固定电话时代,进入移动互联网。AI正在做的,是让“智能”本身实现跨越式普及。 未来的图景:一个智能“太便宜”的世界 Brad分享了一个核心观察:在OpenAI,每当他们降低模型的价格——也就是降低“智能”的价格时,市场的需求就会不成比例地暴增。 “我们还没看到需求的上限在哪里,”他说,“似乎我们能提供多少物美价廉的智能,世界就能消耗掉多少。” 这意味着什么? 想象一下,如果专业的法律建议、医疗诊断或教育服务的成本降低了100倍,对这些服务的需求可能会增加1000倍。这会催生出一个庞大的新市场。最初,AI可能处理基础的咨询,但当用户有了更复杂的需求时,他们仍然需要人类专家。这不仅不会让律师、医生和老师失业,反而可能为他们带来一个前所未有、更加广阔的市场。 这场由AI驱动的变革才刚刚开始。它充满了未知,也必然伴随着阵痛和调整。但从OpenAI内部的视角来看,这更像是一场关于“增强”和“赋能”的宏大叙事。未来,不属于那些害怕被AI取代的人,而属于那些拥抱AI、学会与之共舞,并用它来放大自身创造力和人性的每一个人。

July 24, 2025 · 1 min · fisherdaddy