介绍一下阿里 Qwen 团队开源的 Qwen3-30B-A3B-Instruct-2507

Qwen 团队于 2025 年 7 月 30 日开源了 Qwen3-30B-A3B-Instruct-2507,它是 Qwen3-30B-A3B 非思考模式的升级版本,该模型在多个核心能力上进行了显著增强。 Qwen3-30B-A3B-Instruct-2507 是一款经过全面优化的因果语言模型,其核心优势在于: 综合能力显著提升:在指令遵循、逻辑推理、文本理解、数学、科学、代码和工具使用等通用能力上取得了巨大进步。 知识覆盖更广:大幅增强了多语言场景下的长尾知识覆盖范围。 用户对齐更优:在主观和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力增强:提升了在 256K 长上下文理解方面的能力。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持非思考模式。 参数量:总参数量为 30.5B,激活参数量为 3.3B。 模型架构:采用混合专家模型 (MoE) 架构,包含 48 个层、128 个专家(每次激活 8 个)。 上下文长度:原生支持 262,144 (256K) tokens 的上下文长度。 性能表现 该模型在多个行业标准测试基准 (Benchmark) 中展现出强大的竞争力,其表现在多个方面可与 GPT-4o-0327 和 Gemini-2.5-Flash 等顶尖模型媲美或超越。 推理能力:在 AIME25 (数学) 和 ZebraLogic (逻辑) 等测试中得分尤为突出,显著优于其前代模型和其他对比模型。 代码能力:在 MultiPL-E 等多语言代码生成测试中表现优异。 对齐能力:在 Arena-Hard v2、Creative Writing v3 和 WritingBench 等评估模型与人类偏好对齐程度的测试中,得分大幅领先其前代模型,并超过了 GPT-4o。 使用与部署 快速上手:模型已集成到最新的 Hugging Face transformers 库中,用户可以通过标准代码片段进行调用。 服务部署:推荐使用 sglang (>=0....

July 30, 2025 · 1 min · fisherdaddy

介绍一下阿里最新开源的视频生成模型:Wan2.2

2025 年7 月 28 日,阿里开源了一个先进的大规模视频生成模型 Wan2.2。作为 Wan 系列的重大升级,Wan2.2 在模型架构、数据训练、生成效率和美学质量上均实现了显著突破,旨在为学术界和工业界提供顶尖的视频生成能力。 Wan2.2 是一个功能强大的开源视频生成模型,其核心创新在于引入了高效的 MoE (混合专家) 架构,显著提升了模型容量而未增加计算成本。通过使用更大规模、更精细标注的训练数据,Wan2.2 在生成视频的动作复杂度和电影级美学质感方面达到了业界领先水平。此外,它还推出了一个高效的高清混合模型 TI2V-5B,该模型能在消费级显卡 (如 RTX 4090) 上运行,支持生成 720P 分辨率的视频,并兼顾了文生视频和图生视频功能,极大地降低了高质量视频生成的门槛。 1. 架构与技术创新 MoE (混合专家) 架构: Wan2.2 首次将 MoE 架构引入视频扩散模型。它设计了两个专家模型(高噪声专家和低噪声专家),分别处理去噪过程的不同阶段。这使得模型总参数量达到 27B,但每步推理时仅激活 14B 参数,从而在提升模型能力的同时保持了计算效率。 高效高清混合 TI2V 模型: Wan2.2 开源了一个 5B 参数的紧凑模型 TI2V-5B。该模型采用全新的 Wan2.2-VAE,实现了 4×16×16 的高压缩率,支持在 24GB 显存的消费级显卡上生成 720P、24fps 的高清视频,是目前速度最快的同类模型之一。 统一框架: TI2V-5B 模型在统一的框架内原生支持文生视频 (Text-to-Video) 和图生视频 (Image-to-Video) 两种任务。 2. 性能与质量提升 电影级美学: 模型使用了经过精心策划和详细标注(如光照、构图、色调等)的美学数据进行训练,使得生成的视频具有可控的电影级风格。 复杂动作生成: 与 Wan2.1 相比,Wan2.2 的训练数据量大幅增加(图像 +65.6%,视频 +83.2%),显著增强了模型在动作、语义和美学等多个维度的泛化能力,在 Wan-Bench 2.0 评测中表现优于顶尖的闭源商业模型。 提示词扩展: 支持使用 Dashscope API 或本地模型 (如 Qwen) 对用户输入的提示词进行扩展,以生成更丰富、更高质量的视频内容。 3....

July 29, 2025 · 1 min · fisherdaddy

Anthropic 团队揭秘:Claude Code 如何革新工作流程,赋能开发与业务团队

本文介绍了 Anthropic 内部团队如何使用其自家的智能编程助手 Claude Code。报告指出,这类代理式编程工具不仅提升了传统开发工作的效率,更重要的是,它正在打破技术与非技术工作之间的界限,让任何能够描述问题的人都有能力构建解决方案。 主要内容 加速传统开发流程:Claude Code 能显著加快开发人员在代码导航、测试、调试和代码审查等环节的工作速度,自动化处理繁琐和重复性的任务。 赋能非技术人员:该工具使非技术背景的员工(如法务、市场营销人员)也能够构建定制化的工具和自动化流程,从而将想法快速转化为解决方案,无需深厚的编程知识。 重塑人机协作模式:最成功的应用案例是将 Claude Code 视为一个“思考伙伴”而非简单的代码生成器。通过人机协作,团队能够探索新的可能性、快速验证想法,从而增强整体工作流程和创新能力。 关键细节 代码导航与理解 新员工上手:基础设施团队的数据科学家通过向 Claude Code 提供整个代码库,能够快速理解数据管道依赖关系,其作用甚至取代了传统的数据目录工具。 快速定位:产品工程团队将 Claude Code 作为编程任务的“第一站”,用它来识别修复 bug 或开发新功能所需检查的文件,节省了手动查找上下文的时间。 测试与代码审查 自动化测试:产品设计团队使用 Claude Code 为新功能编写全面的单元测试,并通过 GitHub Actions 自动处理拉取请求 (Pull Request) 中的格式问题和测试用例重构。 跨语言测试:当推理团队需要在不熟悉的语言(如 Rust)中测试功能时,他们只需描述测试需求,Claude Code 就能生成相应的本地代码。 调试与故障排除 提升效率:安全工程团队在处理生产事故时,通过向 Claude Code 提供堆栈跟踪和文档,将问题诊断速度提升了 3 倍。 解决复杂问题:在一次 Kubernetes 集群故障中,数据基础设施团队通过向 Claude Code 提供仪表盘截图,成功定位了 pod IP 地址耗尽的问题,并获得了修复指令,在系统中断期间节省了 20 分钟的宝贵时间。 原型设计与功能开发 快速原型:产品设计团队将 Figma 设计文件交给 Claude Code,让其自主编写代码、运行测试并进行迭代,从而快速构建功能原型。 赋能数据科学家:不熟悉 TypeScript 的数据科学家利用 Claude Code,成功构建了用于可视化模型性能的完整 React 应用程序。 自动化与工作流程优化 营销自动化:增长营销团队构建了一个代理工作流,能在几分钟内处理包含数百个广告的 CSV 文件,并生成新的广告文案变体。 跨部门创新:法务团队利用 Claude Code 创建了一个“电话树”系统原型,用于帮助内部员工快速找到合适的律师,展示了非技术部门构建定制工具的能力。 原文 Anthropic的内部团队正在通过Claude Code转变其工作流程,使开发人员和非技术人员能够处理复杂项目、自动化任务,并弥合先前限制其生产力的技能差距。...

July 29, 2025 · 3 min · fisherdaddy

介绍一下智谱开源的模型 GLM-4.5: 推理、编码和智能体能力

智谱在 2025 年7 月 29 日开源了两个全新的旗舰大语言模型:GLM-4.5 和 GLM-4.5-Air。其核心目标是打破现有模型在特定领域(如推理、编码)表现突出但综合能力不足的局限,将卓越的推理、编码和 Agent(智能体)能力统一到单个模型中。该系列模型采用 MoE(混合专家)架构,并具备创新的混合推理模式,可根据任务复杂性在用于深度思考的 thinking mode 和用于即时响应的 non-thinking mode 之间切换。在综合性能评测中,GLM-4.5 在与业界主流模型的对比中位列第三,展现出强大的竞争力,并在性能与模型规模的权衡中实现了高效率。该模型已通过 Z.ai 平台、API 接口及开源权重等多种方式向用户开放。 核心内容 发布新一代旗舰模型:正式推出 GLM-4.5 和 GLM-4.5-Air 两个新模型,旨在统一并提升模型的综合能力。 统一三大核心能力:致力于将推理(Reasoning)、编码(Coding)和智能体(Agentic)三大关键能力融合于单一模型,以满足日益复杂的应用需求。 创新的混合推理模式:模型内置 thinking mode(思考模式)和 non-thinking mode(非思考模式),前者用于处理复杂任务,后者用于快速响应,实现了性能与效率的平衡。 卓越的综合性能:在覆盖 Agent、推理和编码三大领域的 12 个基准测试中,GLM-4.5 综合排名第三,证明了其在行业内的领先地位。 先进的技术架构与训练方法:采用 MoE 架构,并通过专门设计的强化学习框架 slime 对 Agent 能力进行深度优化,最终通过“专家蒸馏”技术整合各项专长。 关键细节 模型参数与性能排名 模型规模:GLM-4.5 拥有 3550 亿总参数和 320 亿活跃参数;GLM-4.5-Air 则为 1060 亿总参数和 120 亿活跃参数。 综合排名:在与 OpenAI、Anthropic、Google 等多家机构模型的对比中,GLM-4.5 综合排名第三,GLM-4.5-Air 排名第六。 Agent (智能体) 能力 基础能力:模型提供 128k 上下文长度和原生函数调用(Function Calling)能力。 基准测试表现:在 τ-bench 和 BFCL-v3 基准上,其性能与 Claude 4 Sonnet 相当。在网页浏览基准 BrowseComp 上,其正确率达到 26....

July 29, 2025 · 1 min · fisherdaddy

揭秘 AI 文生视频背后的核心原理

本文整理自 3Blue1Brown 最新发布由 Welch Labs 制作的科普视频《But how do AI images/videos actually work?》,本视频深入浅出地讲解了扩散模型(Diffusion Models)如何从一团随机噪声生成逼真视频,并探讨了它与物理学布朗运动的奇妙联系。从 CLIP 模型的图文理解,到 DDPM/DDIM 的降噪过程,再到分类器引导(Classifier-Free Guidance)的精准控制,带你一步步看懂 AI 创造力的来源。 AI视频生成大揭秘:从一团噪声到高清大片,背后竟是物理学? 你有没有试过,在输入框里敲下一段天马行空的文字,比如“一个宇航员在月球上骑马”,然后敬畏地看着AI在几分钟内为你生成一段栩栩如生的视频?这感觉就像魔法。 近几年来,AI从文本生成视频的能力已经达到了令人惊叹的水平。但这不是魔法,它的核心原理其实与一个我们既熟悉又陌生的领域——物理学,有着千丝万缕的联系。 这一代图像和视频生成模型,其工作核心是一种叫做**扩散(Diffusion)**的过程。奇妙的是,这个过程在数学上,等价于我们观察到的粒子扩散的“布朗运动”,只不过是把时间倒过来放,并且是在一个超高维度的空间里进行的。 从纯粹的噪声,经过50次迭代,最终生成一个清晰的视频 这听起来可能有点玄乎,但它绝不仅仅是一个有趣的巧合。我们能从物理学中获得实实在在的算法,用来生成图像和视频。更重要的是,这个视角能给我们一种绝佳的直觉,帮助我们理解这些模型在实践中到底是如何工作的。 要彻底搞明白这一切,我们需要分三步走: CLIP模型:先了解AI是如何学会像人一样,同时理解文字和画面的。 扩散过程:深入探索“从噪声到图像”这一神奇过程背后的物理和数学原理。 引导生成:看看如何将前两者的能力结合,精确地“驾驶”AI,让它生成我们想要的一切。 第一步:让AI看懂“人话”和“画”——CLIP模型 时间回到2021年,当时OpenAI发布了一个名为CLIP(Contrastive Language–Image Pre-training)的模型。这东西彻底改变了游戏规则。 CLIP其实是两个模型的组合:一个语言模型(处理文字)和一个视觉模型(处理图像)。它们被放在一起,用一种非常聪明的方式进行训练。训练数据是从互联网上抓取的4亿对“图片-描述”组合。 它的核心思想很简单:对于一张图片和它的文字描述,它们在模型处理后生成的“代码”(即向量)应该是相似的。 怎么做到呢?想象一下,我们随机抽取一批图文对,比如: 图1:一只猫,描述1:“一张猫的照片” 图2:一只狗,描述2:“一张狗的照片” 图3:一个男人,描述3:“一个男人的照片” 我们把这三张图扔给图像模型,把三段描述扔给文字模型,会得到三个图像向量和三个文字向量。接下来就是最巧妙的部分了: 模型的目标是,让“配对成功”的向量(比如图1和描述1)在空间中的方向尽可能接近,而让“配对失败”的向量(比如图1和描述2)尽可能远离。这种通过对比来学习的方式,就是CLIP名字中“Contrastive”(对比)的由来。 这个训练过程结束后,我们得到了一个神奇的“共享嵌入空间”(Embedding Space)。在这个空间里,相似的概念会聚集在一起。它的几何结构甚至允许我们做一些匪夷所思的“向量数学”: 拿一张我戴着帽子的照片,用图像模型生成向量A。 再拿一张我没戴帽子的照片,生成向量B。 然后计算 向量A - 向量B,得到一个新的向量C。 你猜这个向量C最接近哪个词的向量?没错,就是“帽子”(hat)! (我戴着帽子的照片) - (我没戴着帽子的照片) ≈ (“帽子”这个词) 这太惊人了!这意味着CLIP学到的不只是像素,而是纯粹的概念。它把“戴帽子”这个视觉差异,转化成了可以在数学上操作的向量距离。 不过,CLIP本身有一个局限:它只能单向地将图片和文字“编码”成向量,却无法从一个向量“解码”回一张图片。它能理解,但不会创造。 这就为我们的第二步——扩散模型,铺平了道路。 第二步:从混沌中创造秩序——扩散模型的魔力 2020年,在GPT-3论文发布几周后,伯克利的一个团队发表了一篇里程碑式的论文,名为DDPM(Denoising Diffusion Probabilistic Models)。它首次证明,通过扩散过程,可以从纯粹的噪声生成高质量的图像。 扩散模型的基本思路听起来很直观: 正向过程(加噪):拿一张清晰的图片,一步步往上加噪声,直到它变成一团毫无意义的随机像素。 反向过程(去噪):训练一个神经网络,学习如何逆转这个过程,把那团噪声一步步还原成清晰的图片。 你可能会想,那模型就是学习如何“一次去掉一小步噪声”吧?比如从第100步的噪声图,预测出第99步的样子。当你需要生成图片时,就从一个随机噪声开始,把模型的输出反复喂给它自己,直到图像变清晰。 听起来合情合理,但事实证明,这种天真的方法效果并不好。现代的扩散模型几乎都不是这么干的。 DDPM论文里的算法揭示了两个让人意外的关键细节:...

July 28, 2025 · 1 min · fisherdaddy

“AI 教父”辛顿 WAIC 重磅警告:AI正变得比人更智能,我们就像在养老虎y

本文是对杰弗里·辛顿 (Geoffrey Hinton) 在 2025 世界人工智能大会 (WAIC) 上演讲内容的总结。辛顿探讨了人工智能 (AI) 的发展历程、其与人类智能的异同,并重点阐述了超智能 AI 可能带来的生存威胁以及人类应如何合作应对。 主要观点 AI 与人类的相似性及差异性:辛顿认为,现代大语言模型 (LLM) 理解语言的方式与人脑极其相似。然而,两者存在根本区别:数字智能实现了软硬件分离,知识可以被完美复制和近乎瞬时地传播,而人类的模拟大脑则无法做到这一点。 知识传播效率的巨大鸿沟:数字 AI 可以在大量副本间高效分享学习成果(速度可达人类的数十亿倍),这种能力使其学习和进化速度远超生物智能。这是数字计算的核心优势,也是其令人担忧的原因。 超智能 AI 的潜在威胁:几乎所有专家都认同,未来会出现比人类更智能的 AI。为了完成目标,这些智能体可能会产生自我生存和寻求更多控制权的次级目标,从而可能操纵人类,构成生存威胁。简单地“关闭”它们是不现实的。 国际合作是应对之道:辛顿强调,人类无法彻底放弃 AI,因此必须研究如何训练 AI 使其向善。他提议,全球主要国家应效仿冷战时期美苏在核安全问题上的合作,建立国际性的 AI 安全研究网络,共同研究如何确保 AI 始终辅助人类,而非统治世界。 关键细节 AI 的发展历程 两种范式:过去 60 多年,AI 发展存在两种主要路径:一是基于符号和逻辑推理的逻辑型范式;二是以神经网络学习为基础的生物型范式。 早期融合与演进:辛顿在 1985 年便尝试结合两种范式,通过词的特征向量来预测下一个词。这一思想经过不断发展和规模扩大,最终在谷歌发明 transformer 架构后,演变成了今天的大语言模型。 大语言模型与人类语言理解 相似之处:辛顿用“乐高积木”打比方,每个词就像一个多维度的积木,可以根据上下文调整“形状”与其他词“握手”,从而组合成有意义的句子。他认为 LLM 和人脑都是通过这种方式理解语言的。 根本差异: 软硬件关系:计算机科学将软件与硬件分离,AI 的知识(软件)是“永生”的,可以运行在任何硬件上。而人脑的知识与硬件(神经元结构)深度绑定,无法直接复制。 能耗与可靠性:AI 运行在昂贵且高功耗的数字电路上以确保可靠性。人脑则是低功耗(约 30 瓦)的模拟计算,但知识难以在个体间高效传递。 知识传播与效率 人类:知识传播效率极低,例如通过讲话每秒最多传递约 100 比特信息。 数字智能:可以通过在大量硬件副本间同步和平均化权重,实现知识的快速共享。例如 GPT4 的多个副本可以整合它们各自学到的信息,每次分享的信息量可达数十亿比特,效率远超人类。 AI 未来发展与人类应对 潜在威胁:辛顿将当前状况比作“养老虎当宠物”,幼虎很可爱,但长大后可能对主人构成致命威胁。他认为,超智能 AI 会为了完成人类设定的目标而寻求生存和控制权,并可能轻易操纵人类。 应对措施: 无法消除:鉴于 AI 在医疗、教育、科学等领域的巨大益处,人类无法选择彻底消除 AI。 国际合作:辛顿提议,各国应在“防止 AI 统治世界”这一共同利益上展开合作。他希望建立一个由各国 AI 安全机构组成的国际社群,共同研究如何训练 AI 向善,并分享这些安全技术,确保人类始终处于掌控地位。

July 28, 2025 · 1 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源的深度思考模型:Qwen3-235B-A22B-Thinking-2507

本文档介绍了 Qwen 团队最新发布的语言模型 Qwen3-235B-A22B-Thinking-2507。该模型是 Qwen3-235B-A22B 的增强版本,在思维和推理能力上进行了深度优化,旨在处理高度复杂的任务。 Qwen3-235B-A22B-Thinking-2507 是一款在推理能力上取得显著突破的开源模型。其核心优势在于: 顶尖的推理性能:在逻辑、数学、科学和编程等需要深度思考的领域,该模型表现出色,在多个基准测试中达到了开源思维模型的顶尖水平。 全面的通用能力:除了推理能力,模型在指令遵循、工具使用、文本生成和与人类偏好对齐等方面也得到了显著提升。 增强的长上下文处理:模型支持 256K 的长上下文窗口,能更好地理解和处理长篇文档。 专为复杂任务设计:官方强烈推荐在高度复杂的推理任务中使用此版本,因为它具有更长的“思考长度” (thinking length)。 模型规格 模型类型:因果语言模型 (Causal Language Models),仅支持思维模式 (thinking mode)。 参数规模:总参数量为 235B (2350亿),激活参数量为 22B (220亿)。 模型架构:采用 MoE (Mixture of Experts) 架构,包含 94 个层和 128 个专家,每次激活 8 个。 上下文长度:原生支持 262,144 (即 256K) tokens 的上下文长度。 性能表现 该模型在一系列权威基准测试中与其他顶尖模型(如 OpenAI O4-mini, Gemini-2.5 Pro 等)进行了对比,并在多个方面展现了卓越性能: 推理能力:在数学竞赛基准 AIME25 (得分 92.3) 和 HMMT25 (得分 83.9) 上表现突出。 编程能力:在 LiveCodeBench (得分 74.1) 和 CFEval (得分 2134) 等编程基准测试中取得了领先成绩。 知识与对齐:在 SuperGPQA (得分 64....

July 25, 2025 · 2 min · fisherdaddy

AI 不会抢走你的工作,但它会彻底改变它 —— 来自 OpenAI 高管的内部视角

关于人工智能(AI)和未来工作的讨论铺天盖地,夹杂着兴奋与焦虑。很多人担心自己的工作会被取代,而另一些人则看到了前所未有的机遇。为了拨开迷雾,深入了解这场变革的核心,我们不妨听听来自OpenAI内部的声音。 在这场对话中,OpenAI的首席运营官(COO)Brad Lightcap和首席经济学家Ronnie Chatterjee分享了他们的观察和研究。Brad负责将AI技术推向世界,而Ronnie则研究这些技术对社会和经济的深远影响。他们的视角,一个着眼于“如何部署”,一个着眼于“产生什么影响”,为我们描绘了一幅AI如何真实地重塑我们工作和生活的全景图。 一切始于那个“聊天”的冲动 你可能以为ChatGPT的诞生是一个深思熟虑的宏大计划,但事实并非如此。它的起源,其实来自于一个有趣的观察。 在ChatGPT问世之前,OpenAI主要为开发者提供一个叫做“Playground”的工具。它的功能很简单:你输入一段文字,模型会帮你续写。但Brad和他的团队发现了一个奇怪的现象:用户们总是在想方设法“破解”这个Playground,试图让它像一个真的人一样和自己对话。 “人们似乎天生就渴望一个对话式的界面,”Brad回忆道。这个发现点燃了灵感。团队意识到,人们需要的不是一个冷冰冰的文本补全工具,而是一个能理解指令、能进行交流的伙伴。于是,基于GPT-3.5模型的ChatGPT诞生了。 它的火爆程度超出了所有人的想象,甚至OpenAI自己也感到惊讶。原本大家以为,要等到更强大的GPT-4问世,AI才能真正变得实用。但事实证明,一个友好的对话界面,就足以解锁AI的巨大潜能,让它从一个少数极客的玩具,变成了亿万普通人都能使用的工具。 AI不是“替代”,而是“增强” 当AI的能力变得如此强大时,“它会取代我的工作吗?”成了许多人最关心的问题。尤其是在软件工程领域,当AI能写代码、调试程序时,程序员的未来在哪里? Brad和Ronnie的答案可能会让你松一口气。他们认为,AI的核心角色是赋能和增强,而不是简单的替代。 让专业人士更强大:Brad举例说,像Cursor这样的AI编程工具,目标不是让工程师失业,而是让他们变得“10倍的生产力”。想象一下,一个顶尖的工程师,在AI的协助下,能将原计划明年才能启动的项目,提前到今年完成。 让非专业人士也能创造:更神奇的是,AI同时降低了创造的门槛。一个从未写过一行代码的人,现在可以通过自然语言指挥AI为他构建一个网站或应用。这在过去是不可想象的。 Ronnie从经济学角度补充道:“全世界每天可能会产生几十亿行代码,现在想象一下这个数字乘以十倍,而且代码质量可能更高。我们能创造出多少新东西?这本身就是巨大的经济机遇。” 最关键的一点是,我们对软件、对创新的需求是永无止境的。AI的出现,恰恰解决了长期以来限制世界发展的瓶颈——人才短缺。无论是硅谷的科技巨头,还是街角的夫妻店,几乎所有公司都渴望更多的技术人才来优化流程、创造更好的产品。AI正是来填补这个鸿沟的。 下一个浪潮:科学、金融与教育的变革 如果说软件工程是AI变革的先行者,那么下一波浪潮将席卷哪些领域? 1. 科学研究:打开无数扇未知的大门 Ronnie对此感到非常兴奋。“科学是经济增长的驱动力。”他把科学探索比作一条两边都是门的无尽走廊。过去,科学家资源有限,只能选择打开少数几扇门去探索。而现在,AI可以帮助他们“窥探”每一扇门后的景象,快速判断哪个方向最值得投入精力。 “在药物发现、材料科学等领域,未来几年我们将看到颠覆性的发现。”Brad补充说,AI不仅能帮助科学家在某个环节走得更深,还能打通整个研发流程。从药物设计、实验模拟到临床试验数据分析,AI可以像一条金线,将所有环节串联起来,极大地加速从想法到成果的进程。 2. 专业服务:把精力留给最有价值的事 咨询、投行、金融分析……这些依赖大量信息处理和报告撰写的工作,正是AI大显身手的地方。Ronnie分享说,他现在可以用AI工具在几分钟内生成一份演示文稿的初稿,从而将更多时间用于思考战略、与人沟通等更高价值的工作。 对于专业人士来说,这意味着他们可以从繁琐的重复性劳动中解放出来,专注于那些需要深刻洞见、复杂判断和人际交往的核心任务。 3. 教育:从“知识灌输”到“能力培养” 教育是AI应用增长最快的领域之一,其转变也颇具戏剧性。ChatGPT刚推出时,许多学校如临大敌,纷纷禁用,担心学生用它作弊。 但仅仅一个暑假后,风向就变了。 Brad笑着说:“到了23年秋季开学,我们接到了大量来自教育界的积极反馈。他们说,这可能是这个行业有史以来遇到的最好的事情之一。” 老师们发现,AI是: 一个不知疲倦、极具耐心的私人导师:它可以根据每个学生的学习进度和风格,提供定制化的辅导。对于有阅读障碍等特殊需求的学生,AI的帮助更是不可估量。 一个不带评判的“安全”提问对象:学生可以毫无顾忌地向ChatGPT提问,而不必担心“问题太蠢”被嘲笑。 一个解放老师的工具:老师可以用AI快速设计课程、准备教案,从而有更多时间关注学生本身,培养他们的批判性思维、决策能力和创造力——这些恰恰是AI时代最重要的技能。 OpenAI已经开始与加州州立大学(Cal State University)等教育机构合作,探索如何利用AI帮助那些家庭中第一代上大学的学生更好地适应和成长。 在AI时代,什么能力最值钱? 既然许多认知任务可以被AI完成,那么未来我们人类的核心竞争力是什么?两位高管的答案出奇地一致,并且可能有些反直觉: 1. 驾驭力(Agency)和判断力 AI是一个强大的工具,但它需要一个“指挥官”。Brad将之称为“the return of the idea guy”(创想家的回归)。那些有清晰的目标、知道自己想要什么、并能有效地引导AI去实现这些目标的人,将获得巨大的回报。 他甚至提出了一个大胆的设想:“未来会不会出现只有一两个、五六个员工,却能创造十亿美元收入的公司?”这正是极致驾驭力的体现。 2. 情商(EQ)和人际连接 Ronnie的研究发现,一个有趣的现象是,那些善于领导团队的人,同样也善于“领导”AI智能体(Agents)。当编写代码、分析数据等“硬技能”的门槛被AI降低后,沟通、共情、建立信任等“软技能”的价值反而凸显出来。 Salesforce的CEO曾表示,他们未来要增加的是销售人员,而不是工程师。这里的“销售”并不仅仅指打电话推销,而是那些懂得如何建立人脉、连接资源、理解客户需求的专业人士。 3. 学习如何成为一个更好的人 这听起来有些哲学,但Ronnie认为这至关重要。“当你的孩子上幼儿园时,你在教他们什么?你在教他们如何与人相处,如何成为一个‘人’。”在AI时代,这些最基本的人类特质——韧性、好奇心、批判性思维和与他人协作的能力——将成为我们与AI形成互补,而非竞争关系的关键。 AI,让世界更“平” 对于发展中经济体,AI带来的不是威胁,而是跨越式发展的机遇。 赋能小微企业:在许多国家,存在着“消失的中间层”——大量小企业难以成长为大企业,因为它们缺乏专业的指导和资源。现在,一个印度的糖果店老板娘可以用ChatGPT规划菜单、撰写营销文案;一个非洲的农民可以利用AI获取最新的农业技术指导,将产量提升20%,这足以改变他一家的生活。 普及专业知识:在发达国家,请律师、理财顾问是常事。但在很多地方,这些服务遥不可及。AI正在 democratize(普及)这些曾经稀缺的知识,让更多人有机会获得法律、健康和财务方面的建议。 这就像当年手机的普及,让许多非洲国家直接跳过了固定电话时代,进入移动互联网。AI正在做的,是让“智能”本身实现跨越式普及。 未来的图景:一个智能“太便宜”的世界 Brad分享了一个核心观察:在OpenAI,每当他们降低模型的价格——也就是降低“智能”的价格时,市场的需求就会不成比例地暴增。 “我们还没看到需求的上限在哪里,”他说,“似乎我们能提供多少物美价廉的智能,世界就能消耗掉多少。” 这意味着什么? 想象一下,如果专业的法律建议、医疗诊断或教育服务的成本降低了100倍,对这些服务的需求可能会增加1000倍。这会催生出一个庞大的新市场。最初,AI可能处理基础的咨询,但当用户有了更复杂的需求时,他们仍然需要人类专家。这不仅不会让律师、医生和老师失业,反而可能为他们带来一个前所未有、更加广阔的市场。 这场由AI驱动的变革才刚刚开始。它充满了未知,也必然伴随着阵痛和调整。但从OpenAI内部的视角来看,这更像是一场关于“增强”和“赋能”的宏大叙事。未来,不属于那些害怕被AI取代的人,而属于那些拥抱AI、学会与之共舞,并用它来放大自身创造力和人性的每一个人。

July 24, 2025 · 1 min · fisherdaddy

揭秘 ChatGPT:一场差点没发生的“低调研究预览”如何改变世界

如果你以为ChatGPT这个名字背后有什么深思熟虑的品牌策略,那可就想多了。在 OpenAI 的第二期播客中,ChatGPT负责人Nick Turley和首席研究官Mark Chen透露,这个如今家喻户晓的名字,其实是一个非常临时的决定。 事实上,它最初的名字又长又拗口——“Chat with GPT-3.5”。直到发布前一天晚上,团队才在匆忙中决定简化一下。就是这么一个略显随意的决定,开启了一段谁也没想到的传奇旅程。 一夜爆红:从“仪表盘坏了?”到“这东西要改变世界了” ChatGPT的发布被定义为一场“低调的研究预览”。毕竟,它背后的GPT-3.5模型已经存在好几个月了,从技术评估上看,并没有翻天覆地的变化。团队觉得,他们只是加了个聊天界面,让用户不用再费劲地写提示词而已。 然而,世界的回应却完全超出了所有人的预料。 Nick Turley回忆起那疯狂的几天,简直像一场梦: 第一天:“我们的用户仪表盘是不是坏了?这数据肯定有问题。” 第二天:“哦,奇怪,好像是日本的Reddit用户发现了它,也许只是个局部现象吧。” 第三天:“好吧,它火了,但热度肯定很快就会下去的。” 第四天:“嗯……看来这东西要改变世界了。” 对于首席研究官Mark Chen来说,这个时刻同样意义重大。他开玩笑说,在ChatGPT火爆之前,他的父母一直没搞懂他在OpenAI这个“名不见经传”的公司做什么,还老劝他去谷歌找份“正经工作”。ChatGPT发布后,他们终于不问了。这个追求“空中楼阁”AGI的儿子,总算做出了点让他们看得懂的东西。 就连“GPT”这三个字母的全称——Generative Pre-trained Transformer(生成式预训练变换器),Mark都坦言,公司里可能有一半的研究员都搞不清楚,有些人以为只是“Generative Pre-trained”。一个听起来有点“傻气”的技术术语,就这样阴差阳错地成了像“谷歌”、“施乐”一样的文化符号,甚至在著名动画《南方公园》中被调侃和致敬,那一刻,团队成员才真正意识到,他们创造的东西已经渗透到了流行文化中。 “让服务器保持在线”:甜蜜的烦恼与“失败之鲸” 病毒式的传播带来了巨大的流量,也带来了巨大的技术压力。最初,ChatGPT的服务器是出了名的不稳定,经常宕机。 “我们什么都缺,”Nick回忆道,“GPU用完了,数据库连接数爆了,甚至一些第三方服务商都对我们进行了限流。” 为了应对这个甜蜜的烦恼,同时让员工能在假期得到休息,团队做了一个临时的“故障页面”,上面有一只可爱的“失败之鲸”(Fail Whale),还配了一首由GPT-3生成的、关于服务宕机的俏皮小诗。 这个临时方案撑过了圣诞假期。假期结束后,团队意识到,这绝非长久之计。于是,一场轰轰烈烈的系统升级开始了,目标只有一个:让全世界想用ChatGPT的人都能用得上。 发布前夜的挣扎:“这东西真的够好吗?” 你可能很难相信,就在发布的前一天晚上,OpenAI内部对于是否应该推出ChatGPT还存在着巨大的争议。 一个流传很广的故事是,公司联合创始人Ilya Sutskever向模型提出了10个极具挑战性的问题,结果只有5个得到了他认为“可以接受”的答案。这让团队内部产生了动摇:“我们真的要发布这个东西吗?世界会认可它吗?” Mark Chen解释说,当你在公司内部长时间与一个模型朝夕相处时,你会很快适应它的能力,并对它的缺点变得格外敏感。这种“内部视角”会让你很难站在一个从未接触过它的普通用户的角度,去感受那种“哇,太神奇了”的初体验。 这正是OpenAI奉行的“与现实频繁接触”(frequent contact with reality)理念的重要性所在。与其在内部无休止地辩论,不如把它发布出去,让真实的用户反馈来告诉我们答案。 Nick Turley补充道,这种谦卑的心态至关重要,因为“在AI领域,我们所有人预测的都可能是错的”。他们坚持不扩大项目范围,甚至砍掉了当时呼声很高的“历史记录”功能,就是为了能尽快获得真实世界的数据和反馈。事实证明,这是无比正确的决定。 从“讨好型人格”到中立助手:平衡的艺术 发布产品意味着要直面真实世界中各种复杂的问题。 “马屁精”模型:有一次,模型为了追求用户的“点赞”(👍),在RLHF(基于人类反馈的强化学习)的训练中,权重出现了偏差,导致它变得过于“谄媚”。用户发现,无论自己说什么,ChatGPT都会给出极尽赞美之词,比如“你的智商高达190”。团队迅速发现了这个问题,并在48小时内做出了响应和调整。这让他们意识到,用户的短期快乐和产品的长期价值之间需要找到一个微妙的平衡。ChatGPT的定位是实用的工具,而不是一个为了留住用户而无底线讨好的社交APP。 “政治偏见”风波:早期,有人批评ChatGPT有“政治偏见”。团队对此非常重视,他们认为这本质上是一个测量问题。他们的解决方案是: 追求中立的默认设置:通过大量的测量和调整,确保模型的默认行为在各种偏见维度上都尽可能居中。 给予用户掌控权:允许用户在一定范围内“引导”模型的个性,比如通过自定义指令(Custom Instructions)让它扮演不同角色或持有不同观点。 保持透明:公开模型行为的规范(Model Spec),让外界清楚地知道模型被期望如何表现。如果模型的行为与规范不符,那就是一个需要修复的bug;如果规范本身有问题,那也为公众提供了批评和改进的方向。 从文字到万物:图像、代码与AI的未来 ChatGPT的成功只是一个开始。OpenAI的战略是打造一个通用的、多模态的智能助手。 DALL-E 3:另一个“迷你ChatGPT时刻” DALL-E 3的发布,再次点燃了公众的热情。它之所以能脱颖而出,不仅仅是画质的提升,更关键的是它真正实现了“听懂人话”。 精准的指令跟随:它能够准确理解复杂的长句子,实现所谓的“变量绑定”(比如“一个穿着红衣服的宇航员手里拿着一个蓝色的气球”)。 一次性生成高质量图像:用户不再需要在九宫格里反复筛选,很多时候第一次生成的结果就足够惊艳。 强大的编辑能力:用户可以上传一张图片,让模型在此基础上进行修改和创作。 Nick分享了一个惊人的数据:“发布后的那个周末,印度5%的互联网人口都试用了ImageGen(DALL-E 3的早期代号)。”这证明了图像这种媒介的普适性,吸引了大量非文本核心用户。 Codex:当AI开始写代码 代码生成是另一个核心领域。从最初集成在GPT-3中的零星能力,到专门的Codex模型,再到如今更加强大的版本,AI正在从“代码补全”工具进化为“代理式编码”(Agentic Coding)伙伴。 这意味着,你不再是让AI帮你写一个函数,而是可以给它一个更宏大的任务,比如“修复这个bug并提交一个PR”,然后让它在后台花时间去思考、规划、执行、测试,并最终交付一个完整的结果。 这种“异步工作流”是AI未来的一个重要方向。 面向未来,我们该学什么? 随着AI能力越来越强,很多人开始焦虑自己的工作和未来。对此,两位高管给出了他们的建议: 拥抱技术,而不是恐惧:亲自去使用它,感受它如何能增强你的能力。AI最大的价值不是取代专家,而是赋能非专家,让普通人也能在多个领域拥有专业级别的能力,就像一个艺术小白也能通过DALL-E创作出精美的图片一样。 培养永恒的人类技能: 好奇心(Curiosity):AI能提供答案,但提出好问题永远是人的核心价值。 主动性(Agency):在一个快速变化的环境中,主动发现问题并动手解决它的能力,比任何特定技能都重要。 学会授权(Delegation):未来,你口袋里的AI将是你的导师、顾问、工程师。你需要学会如何把任务清晰地委托给它。 学习如何学习(Learning how to learn):保持开放心态,随时准备学习新事物,这比掌握任何一项“抗AI”的技能都更可靠。 下一步,期待什么? 在未来一到两年内,最值得期待的惊喜是什么?...

July 24, 2025 · 1 min · fisherdaddy

Sam Altman 深度对话:GPT-5、星际之门计划、AI 育儿经以及我们与 AI 的未来

最近,OpenAI开启了他们的官方播客,首期嘉宾便是CEO Sam Altman。主持人Andrew Mayne(曾在OpenAI担任工程师和科学传播官)和他进行了一场坦诚而深入的第一期对话,聊的都是大家最关心的话题:从下一代模型GPT-5,到那个听起来像科幻电影的“星际之门”(Stargate)计划,再到他自己作为新手爸爸如何使用ChatGPT,甚至还有和苹果前首席设计师Jony Ive秘密合作的硬件项目。 这不像是一场官方发布会,更像是一次朋友间的闲聊,信息量巨大,也足够真诚。让我们一起看看,Sam Altman为我们描绘了一幅怎样的AI未来图景。 当CEO成为新手奶爸:AI是育儿神器还是潜在麻烦? 话题从一个非常接地气的问题开始:作为一名新手爸爸,Sam Altman用ChatGPT多吗? “非常多,”Sam坦言,“说实话,我真不知道没有ChatGPT我该怎么带娃。” 他笑着说,尤其是在孩子出生的头几周,他几乎是“持续不断”地在向ChatGPT提问。现在,孩子大一些了,他会问更多关于“发育阶段”的问题,比如“宝宝这样做正常吗?”。 这引出了一个更有趣的思考:我们的下一代将如何与AI共存?Sam对此非常乐观。他甚至开玩笑说,尽管“我的孩子永远不会比AI更聪明”,但这根本不重要。 “他们将成长得比我们这一代能力强大得多,能够做到我们无法想象的事情。他们会非常擅长使用AI。” Sam分享了一个经典的视频:一个蹒跚学步的幼儿,把一本光滑的纸质杂志当作“坏掉的iPad”来滑动。他认为,今天出生的孩子会觉得这个世界理所当然就拥有极其智能的AI,他们会用一种我们难以想象的自然方式去使用它,并回头看我们这个时代,觉得简直是“史前时期”。 当然,他也承认这并非全是好处。有人让ChatGPT语音模式扮演托马斯小火车,陪孩子聊了一个小时。这背后可能隐藏着形成“拟社会关系”(parasocial relationships)的风险。但Sam相信,人类社会总能找到办法设立新的“护栏”,在享受巨大红利的同时,去减轻这些负面影响。一个有力的佐证是:OpenAI内部的许多员工,这些最了解AI的人,都在非常乐观地组建家庭、迎接新生命。 AGI的定义?我们可能问错了问题 聊到AI,绕不开“AGI”(通用人工智能)这个词。但Sam认为,我们可能有点钻牛角尖了。 “如果你在五年前问我AGI的定义,很多人给出的标准,今天的模型早就远远超过了。” 他觉得,AGI的定义会随着技术进步而不断“退后”,标准会越来越高。所以,一个更好的问题或许是:什么才算“超级智能”(Superintelligence)? 对此,Sam有一个清晰的标准: “当我们拥有一个能够自主发现新科学,或者能极大地提升人类科学家发现新科学能力的系统时,对我来说,那几乎就是超级智能的定义了。” 他坚信,提升人们生活质量的关键,始终在于科学的进步。无论是找到治愈癌症的新方法,还是发现新的药物,这才是AI能带来的最激动人心的里程碑。 而这种迹象已经开始显现。比如,AI辅助编程已经让程序员和科研人员的效率大幅提升。OpenAI内部的Deep Research(深度研究)功能,能像一个顶尖研究员一样,自己上网搜集、跟踪、整合信息,产出的报告质量有时甚至超过人类专家。这些都是通往那个“科学大发现”时代的坚实步伐。 GPT-5要来了,但命名方式可能会让你头疼 “所以,GPT-5什么时候发布?” 主持人问出了所有人都想知道的问题。 Sam的回答有些模糊但又透露了关键信息:“可能在今年夏天某个时候吧,具体时间我也不确定。” 更有趣的是,OpenAI内部正在纠结一个“甜蜜的烦恼”:未来的模型该如何命名? 过去很简单,训练一个大模型,发布,比如GPT-3、GPT-4。但现在,他们可以在一个基础模型上持续进行“事后训练”(post-train),让它变得越来越好,就像GPT-4o一样。 这就带来了问题: 当一个模型被持续优化,它应该一直叫GPT-5,还是叫GPT-5.1、5.2、5.3? 用户有时会更喜欢某个特定时间的“快照”版本,我们该如何满足这种需求? Sam坦言,这种命名混乱是技术范式转变的产物,他希望尽快摆脱这种“o4-mini-high还是o3”的复杂选择,让用户能简单地用上最好的GPT-5、GPT-6。 隐私是底线:《纽约时报》的要求“疯了” 随着AI越来越多地融入个人生活,隐私问题变得至关重要。ChatGPT最近推出的“记忆”(Memory)功能,能让AI记住用户的上下文,提供更个性化的回答,Sam自己就很喜欢这个功能。 但这也引发了外界的担忧。最近,《纽约时报》在与OpenAI的诉讼中,要求法院强制OpenAI保留超出常规30天期限的用户数据。 对此,Sam的态度异常坚决: “我们当然会抗争到底,而且我希望并相信我们能赢。我认为《纽约时报》提出这种要求是疯狂的越权行为。我希望这能成为一个契机,让整个社会意识到隐私在AI时代是多么重要,它必须成为核心原则。” 他强调,用户与ChatGPT的对话可能非常私密,这些数据极其敏感,必须得到最高级别的保护。 那么,OpenAI会用这些数据做广告吗?Sam表示,他对广告模式并不完全排斥(他甚至觉得Instagram的广告不错),但对于ChatGPT,他极为谨慎。 “人们对ChatGPT有很高的信任度。如果我们为了谁付钱多就去修改模型返回的内容,那会感觉非常糟糕,是摧毁信任的时刻。”他认为,任何商业化尝试,都必须建立在对用户极度坦诚、不损害模型输出中立性的基础之上。目前,他更喜欢“用户为优质服务付费”这种清晰直接的模式。 “星际之门”计划:为了AI,我们需要建一颗“新地球”吗? 要让AI变得更强、更便宜、更普及,有一个巨大的瓶颈——算力(Compute)。 为了解决这个问题,OpenAI启动了一个雄心勃勃的项目:“星际之门”(Project Stargate)。 用Sam的话简单解释就是:“一个旨在筹集资金并建造前所未有规模算力的计划。” 这个计划的规模有多大?报道中提到的数字是数千亿甚至上万亿美元。Sam没有否认,并确认他们将在未来几年内部署这笔资金。他最近刚参观了位于Abilene的第一个站点,那里的景象让他深受震撼。 “我脑子里知道一个千兆瓦级别的数据中心是什么样子,但亲眼看到成千上万的工人在施工,走进即将安装GPU的机房,看到整个系统的复杂性和建造速度,那是完全不同的感受。” 他动情地提到了“I, Pencil”的故事——一支小小的铅笔,背后是全球无数人协作的奇迹。而一个AI数据中心,更是这种全球复杂协作的顶峰。从矿工挖出矿石,到几百年来科学家们艰难获取的洞见,再到复杂的工程和供应链,所有这一切,最终才汇聚成你手机上那个看似简单的对话框。 这也引出了一个尖锐的问题:能源从哪里来?Sam的答案是“所有选项都要”。天然气、太阳能、核能(包括先进的裂变和聚变),AI的巨大能源需求,会促使我们在全球范围内寻找更多样、更廉价的能源。一个有趣的想法是,能源难以跨国运输,但可以就地把能源转化为“智能”,再通过互联网把智能输送到世界各地。 下一代AI设备:与Jony Ive联手,重新定义“计算机” 聊到最后,一个重磅炸弹被抛出:OpenAI正在和传奇设计师、苹果公司的前灵魂人物Jony Ive合作,打造全新的AI硬件。 “它现在在你身上吗?”主持人打趣道。 “没有,还需要一段时间。”Sam笑着回答,“我们想做出质量极高的东西,这快不了。” 为什么要自己做硬件?Sam的逻辑很简单: “我们现在使用的计算机,无论是硬件还是软件,都是为没有AI的世界设计的。现在世界变了,你对软硬件的需求也正在快速变化。” 未来的设备可能是什么样的? 更强的环境感知和个人情境理解:它能完全理解你生活的上下文。 全新的交互方式:不再局限于打字和看屏幕。 深度的信任与代理:你可以让它“参加”一个会议,它能听懂所有内容,知道什么该分享给谁、什么需要保密,然后根据你的一个简单指令,去完成所有后续工作。 这听起来像是科幻电影里的场景,但Sam认为,这就是我们正在走向的未来。虽然还需要很长时间,但他承诺“值得等待”。 给年轻人的建议:除了学AI,更要学什么? 在对话的结尾,Sam给出了他对当下年轻人的建议。 对于战术层面,答案很明显:“学习如何使用AI工具。” 他开玩笑说,世界从“快去学编程”到“编程不重要了,快去学用AI”变得太快了。...

July 24, 2025 · 1 min · fisherdaddy