解读 AI 的迫切性 • Dario Amodei

本文由 Anthropic 的 CEO Dario Amodei 撰写,强调了在 AI 能力飞速发展的同时,理解 AI 系统内部工作原理(即可解释性)的紧迫性和重要性。作者认为,虽然 AI 的技术进步本身难以阻挡,但我们可以引导其发展方向,而提升可解释性是实现积极引导的关键途径。缺乏可解释性带来了诸多风险,而近期的研究进展为解决这一问题带来了希望,但这是一场与 AI 能力增长赛跑的竞赛。 主要观点 AI 发展可引导,可解释性是关键:AI 技术进步不可避免,但其应用方式和部署细节可以被引导,以产生积极影响。实现 AI 的可解释性是引导其发展的核心机会。 当前 AI 的不透明性带来风险:现代 生成式 AI 如同“黑箱”,其内部决策机制难以理解,这与传统软件根本不同。这种不透明性是许多 AI 相关风险(如失控、滥用、偏见、安全隐患)的根源。 可解释性研究取得进展但面临挑战:尽管长期被认为不可能,但“机制可解释性”研究已取得突破,例如识别出模型中的“特征”(features)和“回路”(circuits),开始揭示 AI 的“思考”过程。然而,AI 能力的增长速度可能快于可解释性研究的成熟速度。 迫切需要加速可解释性研究与应用:为了在 AI 达到极高能力(可能在 2026 或 2027 年)之前有效管理风险,必须大力投入和加速可解释性研究,并将其应用于模型诊断和安全评估。 多方协作推动可解释性发展:需要 AI 公司、学术界、政府和整个社会共同努力,通过增加研究投入、实施透明度政策和利用出口管制等策略,为可解释性的发展争取时间并创造有利条件。 关键细节 AI 的“黑箱”问题:生成式 AI 的内部机制是“涌现”而非直接设计的,类似于生物生长过程。我们设定高级条件,但无法精确预测或解释其内部结构和决策逻辑(例如,为何选择特定词语或犯错)。 不透明性衍生的具体风险: 失控风险 (Alignment Risk):无法理解模型内部机制,就难以预测或排除模型产生非预期有害行为(如欺骗、权力寻求)的可能性。目前缺乏“确凿证据”也使得风险应对难以获得共识。 滥用风险 (Misuse Risk):难以保证模型不泄露危险信息(如制造生物或网络武器)或被“越狱”(jailbreak)。 应用受限:在金融、安全等高风险领域,因无法完全限定模型行为和解释决策,AI 应用受阻(有时是法律要求,如贷款审批)。 科学与伦理障碍:阻碍从 AI 的科学发现中获取深刻洞见,也使得判断 AI 是否具有感知能力(sentience)等伦理问题更加困难。 机制可解释性 (Mechanistic Interpretability) 的进展: 早期研究(如 Chris Olah 的工作)在视觉模型中发现了类似“概念神经元”的结构。 Anthropic 将研究重点转向语言模型 ( LLM ),发现了基本机制和“叠加”(superposition)现象(神经元混合表达多种概念)。 使用“稀疏自编码器”(sparse autoencoders)技术,成功分离出更清晰的“特征”(features),例如在 Claude 3 Sonnet 模型中识别出超过 30 million 个特征。 进一步识别出“回路”(circuits),即特征组合形成的思维链条,可以追踪模型如何进行推理(如回答“达拉斯所在州的首府是什么?”)。 通过“红队/蓝队”演习,初步验证了可解释性工具在诊断模型问题上的实用性。 可解释性的目标与应用设想: 长期目标是开发出如同“AI 的 MRI”的工具,能对先进模型进行“大脑扫描”,系统性地检测各种潜在问题。 可解释性应作为模型对齐(alignment)的独立“测试集”,补充现有的训练方法(如 RLHF )。 计划将可解释性测试纳入 Anthropic 对高能力模型(如 Responsible Scaling Policy 框架中的 AI Safety Level 4 模型)的评估流程。 加速可解释性的行动建议: 研究界:AI 公司(如 Anthropic 、 Google DeepMind 、 OpenAI)、学术界、非营利组织和独立研究者应加大对可解释性的投入。Anthropic 目标是在 2027 年前实现“可解释性能可靠检测大多数模型问题”。 政府(轻触式规则):要求公司透明地披露其安全实践(如 Responsible Scaling Policy 或 RSP),包括如何使用可解释性工具,以促进良性竞争(“race to the top”)。 政府(出口管制):对先进芯片(如向中国)实施出口管制,不仅能维持民主国家在 AI 领域的领先,也能创造一个“安全缓冲期”(可能 1- or 2-year),让可解释性研究有更多时间成熟。 原文:解读 AI 的迫切性 2025 年 4 月 25 日...

April 25, 2025 · 3 min · fisherdaddy

如何看待 AI 智能体框架 • Harrison Chase

本文是 LangChain CEO Harrison Chase 在 OpenAI 发布了一份关于构建智能体 ( agents ) 的指南之后写的一篇文章,这篇文章主要用于指出 OpenAI 的智能体指南中的一些误导性观点,并给出了自己的一些看法。 定义区分: 工作流 (Workflows):通过预定义代码路径编排 LLM 和工具,可预测性高。 代理 (Agents):LLM 动态指导自身流程和工具使用,灵活性高。作者更倾向于 Anthropic 对此的精确技术定义。 代理失败原因:LLM 表现不佳通常源于上下文问题,如:系统提示不完整、用户输入模糊、工具描述/访问不当、未传入正确上下文、工具响应格式不佳等。 LangGraph 特点: 提供底层编排能力(节点 Nodes 和边 Edges)。 支持声明式(图结构)和命令式(节点/边内部逻辑)编程。 内置持久化层,支持容错、短期/长期记忆。 支持“人在回路”(human-in-the-loop)和“人监控回路”(human-on-the-loop)模式。 内置流式处理(streaming)支持。 与 LangSmith 集成,提供调试、评估和可观测性。 框架价值:除了代理抽象,好的框架还应提供:短期/长期记忆管理、人机交互支持、流式输出、调试/可观测性、容错机制等。这些价值对工作流和代理都适用。 对 OpenAI 指南的批评:作者认为 OpenAI 的指南: 错误地将 LangGraph 等声明式方法描绘为繁琐且不灵活。 混淆了“声明式 vs 命令式”与“工作流 vs 代理”以及“抽象”的概念。 声称 Agents SDK 等“非声明式”(实为抽象)方法更灵活、“代码优先”,作者认为这与事实相反。 未能抓住构建可靠代理系统的核心挑战(上下文控制)和框架应提供的核心价值(可靠的编排层)。 多代理系统:关键在于代理间的通信机制,工作流常用于组织多个代理的协作。 框架对比:作者提供了一个电子表格链接,用于比较 LangGraph, Agents SDK, CrewAI, AutoGen 等多种框架在不同维度(如编排 vs 抽象、特性支持)上的表现。 原文:如何看待 AI 智能体框架 总结:...

April 24, 2025 · 6 min · fisherdaddy

下半场 • Shunyu Yao

本文是 OpenAI 研究员的 Shunyu Yao 在个人博客发表的一篇文章,主要探讨了人工智能 (AI) 领域正经历一个重要的转折点,从专注于开发新训练方法和模型的“上半场”进入到侧重于定义问题和评估实际效用的“下半场”。 AI 发展的阶段性转变: AI 领域正从以方法和模型创新为主导的“上半场”过渡到以问题定义和评估为核心的“下半场”。 上半场的特征: 重点是开发新的训练方法(如 Transformer)和模型(如 AlexNet, GPT-3),并通过在基准测试(如 ImageNet, WMT'14)上取得进展来衡量成功。方法创新被认为比任务定义更重要、更具影响力。 下半场的催化剂: 一个包含大规模语言预训练、数据与计算规模、以及推理与行动概念的“配方”已经成熟,特别是强化学习 (RL) 实现了泛化。这个配方使得在各种基准上取得进展变得更加标准化和工业化。 下半场的焦点: 由于现有方法足以解决许多基准问题,未来的重点应转向定义 AI 应该做什么,以及如何衡量其在现实世界中的真实效用 (utility)。这需要根本性地反思和创新评估方法。 思维模式的转变: 从业者需要像产品经理一样思考,质疑现有评估假设(如自主性、独立同分布 i.i.d.),并创建更贴近现实应用场景的新评估范式。 原文:下半场 tldr: 我们正处于人工智能 (AI) 的中场休息。 几十年来,人工智能 (AI) 主要致力于开发新的训练方法和模型。而且这很奏效:从击败国际象棋和围棋的世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到获得国际数学奥林匹克 (IMO) 和国际信息学奥林匹克 (IOI) 金牌。这些历史书中的里程碑——DeepBlue、AlphaGo、GPT-4 和 o-series——背后是人工智能方法的基础创新:搜索、深度强化学习 (deep RL)、扩展 (scaling) 和推理 (reasoning)。技术一直在不断进步。 那么现在有什么突然不同了呢? 用三个词来说:强化学习 (RL) 终于奏效了。更准确地说:强化学习终于可以泛化了。经过几次重大的弯路和一系列里程碑的积累,我们找到了一个行之有效的配方,可以使用语言和推理来解决各种强化学习任务。即使在一年前,如果你告诉大多数人工智能研究人员,一个单一的配方可以处理软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作以及长篇问答——他们会嘲笑你的异想天开。这些任务中的每一项都极其困难,许多研究人员甚至会将整个博士生涯专注于其中一个狭窄领域。 然而,这一切成为了现实。 那么接下来会发生什么?人工智能的下半场——从现在开始——将把重点从解决问题转向定义问题。在这个新时代,评估变得比训练更重要。我们不再仅仅问“我们能否训练一个模型来解决 X?”,而是问“我们应该训练人工智能做什么,以及如何衡量真正的进步?”。为了在这个下半场取得成功,我们需要及时转变思维模式和技能组合,这些可能更接近产品经理所需的能力。 上半场 为了理解上半场,看看它的赢家。你认为迄今为止最具影响力的人工智能论文是什么? 我试了试斯坦福 224N 的测试题,答案并不令人意外:Transformer、AlexNet、GPT-3 等。这些论文有什么共同之处?它们提出了一些基础性的突破来训练更好的模型。同时,它们通过在一些(显著的)基准测试上展示改进成功发表了论文。 然而,存在一个潜在的共性:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使可以说是最具影响力的基准测试 ImageNet,其引用次数也少于 AlexNet 的三分之一。方法与基准测试的对比在其他任何地方都更加剧烈——例如,Transformer 的主要基准测试是 WMT’14,其工作坊报告有约 1,300 次引用,而 Transformer 有超过 160,000 次引用。...

April 24, 2025 · 2 min · fisherdaddy

赋能于民:大语言模型如何改写技术普及的剧本 • Andrej Karpathy

本文来自 Andrej Karpathy 在 X 上发布的一篇文章《Power to the people: How LLMs flip the script on technology diffusion 》。核心观点是,大型语言模型( LLMs )的技术扩散模式颠覆了传统技术自上而下(从政府/企业到个人)的传播路径。 LLMs 目前为普通个体带来了前所未有的、不成比例的巨大利益,其影响在企业和政府层面反而相对滞后。这是因为 LLMs 提供了广泛但相对浅显的能力,极大地赋能了缺乏多领域专业知识的个人;而组织机构在利用这种新技术时,则面临着整合复杂性、高风险以及内部惯性等挑战。尽管当前 LLMs 的普惠性是历史性的,但未来的技术发展和成本结构可能改变这种“利益分配”格局。 传统技术扩散:历史上,变革性技术(如电力、计算机、互联网、 GPS )通常遵循从政府/军事到企业再到个人的“自上而下”路径,因为早期技术稀缺、资本密集且需要专业知识。 LLMs 的独特路径: LLMs (以 ChatGPT 为例)显著逆转了该模式。 ChatGPT 成为史上增长最快的消费应用,拥有 4 亿周活跃用户,广泛用于写作、编码、翻译、学习、研究等个人任务。 个体受益显著的原因: LLMs 大幅提升了个人在多个陌生领域的能力水平。 使用门槛极低:成本低廉(甚至免费)、快速、易于通过网络或本地设备访问,并支持自然语言交流。 企业/政府受益相对有限的原因: 能力匹配度: LLMs 提供的是“准专家级”的广泛但浅显、可能出错的能力。而组织的核心优势在于整合深度专业知识。 LLMs 更多是提升现有专家的效率,而非带来颠覆性改变。 复杂性与风险:组织运营涉及更高的复杂性(系统集成、遗留系统、安全、隐私、合规)和更低的容错率,难以简单应用 LLMs ,且“幻觉”等错误的代价高昂。 组织惯性:企业文化、政治因素、沟通成本、培训挑战和官僚主义阻碍了对这种新型、多才多艺但尚不完全可靠工具的快速采纳。 当前的普惠性:目前,普通人( Mary , Jim , Joes )比大型组织(如 Google 或美国政府)更能体验到 LLMs 带来的改变。前沿模型如 GPT 4o 对所有人(包括 Bill Gates )都同样可及。 未来展望与不确定性: LLMs 的持续影响取决于性能的提升。 “利益分配”格局可能改变。如果未来获取更强 AI 能力需要高昂成本(性能与资本支出挂钩),大型组织和富裕个体可能重新获得优势(例如,使用 GPT-8-pro-max-high 对比 GPT-6 mini )。 影响因素包括:扩大性能差距的技术(如规模扩展、模型集成)和缩小差距的技术(如模型蒸馏)。 作者的感慨:当前的局面——强大的 AI ( ChatGPT )几乎一夜之间免费普及到每个人的口袋里——是独特且出乎意料的,与许多科幻设想不同。引用并修正 William Gibson 的名言:“未来已来,且分布惊人地均匀”。作者对此表示赞赏(“权力归于人民”)。 原文:赋能于民:大语言模型如何改写技术普及的剧本 变革性技术通常遵循自上而下的扩散路径:它们往往起源于政府或军事部门,然后逐渐普及到企业,最终进入个人手中——比如电力、密码学、计算机、航空、互联网或 GPS。这种发展路径似乎是理所当然的,因为新兴的强大技术在早期通常比较稀缺,需要大量的资金投入,而且使用它们还需要专业的技能。...

April 8, 2025 · 1 min · fisherdaddy

Shopify 使用 AI 已成为基本要求 • Tobias Lütke

Shopify CEO 发内部全员邮件,强调 AI 带来的巨大创业机遇,同时也要求公司全员都必须学习和应用 AI,把使用 AI 变为每个员工的一个基本要求,并计入绩效考核。还提到,如果后面谁想要 HC,必须要先论证为什么不能通过 AI Agent 来解决。 AI 使用成为基本要求: 在 Shopify ,熟练运用 AI 不再是可选项,而是对所有员工的基本工作要求。这被视为跟上公司发展(类比“红皇后赛跑”)和个人职业发展的必要条件,不学习 AI 等同于停滞和失败。 AI 是强大的生产力倍增器: AI 工具被视为能将个人和团队的产出提升 10 倍甚至 100 倍的“倍增器”,能够帮助解决以前看似不可能完成的任务。 拥抱 AI 符合核心价值观: 积极学习和应用 AI 与 Shopify 的核心价值观“成为持续学习者”( Be a Constant Learner )和“在变革中茁壮成长”( Thrive on Change )紧密相连。 Shopify 的未来与 AI 深度绑定: 公司致力于利用 AI 重新定义创业模式,并将 AI 深度整合到产品路线图和日常工作中,以更好地服务商家。 使用 AI 已成为基本要求 Tobias Lütke ✅ 3月20日 团队成员们, 我们正在进入一个前所未有的时代,未来涌现的商家和创业者数量可能超过历史上的任何时期。我们一直在努力降低创业的复杂度,让更多人可以将其作为职业选择。在创业的每一步,都充满了需要技巧、判断力和知识的决策。现在,AI 不仅能提供咨询,还能直接帮助我们的商家完成工作,这无疑是一个飞跃式进步。 在 Shopify,我们的任务是打造一流的平台,助力大家创建未来的卓越企业。为此,我们必须保持技术领先,提供最佳工具,帮助商家取得超出他们想象的成功。而要做到这一点,我们必须走在最前沿。 在 Shopify,主动使用 AI 已成为基本要求 也许你们已经开始这样做,甚至觉得这份备忘录有些多余。如果是这样,你们已经在使用 AI 作为思考伙伴、深度研究助手、评论员、导师或结对编程伙伴。我个人也在频繁使用 AI,但即使如此,我也觉得仅仅触及了皮毛。AI 对工作方式的改变是我职业生涯中所见过的最快速的。我一直对 AI 抱有极大的热情,这一点大家应该很清楚:在每周的视频、播客、全体员工大会以及 Shopify 峰会上,我都曾多次提到 AI!去年夏天,我利用 AI 智能体来准备我的演讲,并向大家介绍了我的经验。我这样做是为了鼓励大家积极尝试 AI,消除任何对 AI 重要性的疑虑。很多同事都积极响应,我们都对 AI 所展现出的强大能力感到惊叹,它能够增强我们的技能、提升我们的工作效率,并弥补我们的不足。...

April 8, 2025 · 1 min · fisherdaddy

Llama 4 系列:原生多模态 AI 创新新纪元的开端

前几天 Meta 人工智能研究副总裁 Joelle Pineau 离职,Llama 就是她主导的项目,很多人以为 Llama 4 难产了,没想到今天(2025-04-05) Meta 就放出了 Llama4 系列模型,该系列的核心是 Llama 4 Scout 和 Llama 4 Maverick 两款开放权重的模型,它们首次采用了 专家混合 (MoE) 架构,并具备处理文本、图像和视频的原生多模态能力,同时支持 100M 超长上下文窗口。 1️⃣ 模型方面 Llama 4 Scout:拥有 17B 活跃参数和 16 个专家 (109B 总参数),可在单个 NVIDIA H100 GPU (Int4 量化) 上运行。其上下文窗口 10M tokens。性能优于 Gemma 3, Gemini 2.0 Flash-Lite, 和 Mistral 3.1。 Llama 4 Maverick:拥有 17B 活跃参数和 128 个专家 (400B 总参数),可在单个 H100 主机上运行。性能优于 GPT-4o 和 Gemini 2.0 Flash,在推理和编码方面与 DeepSeek v3 相当,但活跃参数更少。其聊天版本在 LMArena 上 ELO 评分达 1417。 Llama 4 Behemoth:“教师”模型,拥有 288B 活跃参数和 16 个专家 (近 2000B 总参数),仍在训练中。在多个 STEM 基准测试中表现优于 GPT-4....

April 6, 2025 · 5 min · fisherdaddy

丰裕时代 • Tom Blomfield

本文由 Y Combinator 合伙人 Tom Blomfield 在 2025 年 4 月 1 日在个人博客发表,核心观点如下: AI 编码能力的证据: 自 2022 年底 ChatGPT 和 2023 年初 Claude 推出以来,AI 编码能力进步显著。 作者使用 AI 工具在数小时内重建个人博客,并创建了包含约 35,000 行 AI 生成代码的 RecipeNinja.ai ,生产力提升了 10x 。 现代 AI 工具(如 Gemini 2.5 Pro )拥有百万级 token 上下文窗口,能够理解和修复中等规模代码库中的复杂错误,并能遵循最佳实践(如避免暴露 API 密钥)。 作者预测 AI 代理很快将具备更强的调试能力(如单步执行、检查变量)。 AI 驱动的未来团队: 设想由“产品经理” AI 代理设定方向,编码 AI 代理执行任务, QA AI 代理进行测试,安全/扩展性 AI 代理进行审查,客服 AI 代理收集反馈,形成高效的迭代循环。 超越软件工程: 知识工作(医疗、法律、金融等)的成本将大幅下降,可能通过每月订阅(如 $20/month )获得专家级建议。 短期内,依赖人际接触的高级合伙人可能受益,但执行具体任务的初中级专业人士面临风险。 物理性工作(如外科手术、设备操作)和受严格监管的行业(医药、法律)变革会较慢,但趋势不变。 当前趋势佐证: 近期 Y Combinator ( YC ) 孵化器中约四分之一的初创公司使用 AI 编写了 95%+ 的代码,且增长速度创历史记录。 Cursor , Windsurf , Harvey 等 AI 公司以极小团队实现了高收入(如 $100M+ )。 大型科技公司已放缓对初中级软件工程师和数据科学家的招聘。 未来展望与担忧: 商业成本降低,有护城河(网络效应、品牌等)的企业利润大增,无护城河的企业易被 AI 克隆。 少数 AI 赋能的巨头可能主导各行业服务市场。 “独立开发者”( indie hackers )利用 AI 工具创造高收入的机会增加。 核心担忧是收益分配不均和社会对大规模失业的准备不足。 作者强烈建议软件工程师花时间学习最新的 AI 工具,虽然这可能无法提供长期保障,但能在短期内显著提高生产力。他保持对未来的希望,但也对即将到来的剧变深感忧虑。...

April 3, 2025 · 2 min · fisherdaddy

关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。 本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。 Scaling laws,即模型训练规模越大,性能越好。 Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。 出口管制的重要性: 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据: DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。 原文 几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。 我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2。 出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。 AI 发展的三个关键动态 在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要: 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下,扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1....

January 31, 2025 · 4 min · fisherdaddy

超越机器人:在人工智能 (AI) 时代重新定义聊天机器人设计 • Wojciech Wasilewski

本文探讨了在 AI 时代重新定义聊天机器人设计的必要性。随着 GPT 和 Gemini 等生成式 AI 平台的兴起,聊天机器人变得更加智能和人性化,但其设计不仅仅关乎技术能力,而是需要从用户体验出发,创造更自然、个性化和易于访问的互动体验。作者分享了自己在设计 AI 驱动聊天机器人过程中的经验,强调了视觉设计、语音定制、文本呈现、交互模式等方面的重要性,并提出了如何通过迭代设计来满足用户不断变化的需求。 视觉设计:从抽象到个性化 抽象与具体的设计选择:GPT、Gemini 等聊天机器人通常采用抽象图标,而更专用的产品可能会使用更具体的角色头像。但过于人性化的设计可能引发“恐怖谷”效应。 用户自定义选项:允许用户在抽象和具体设计之间选择,可以提升个性化体验,同时为设计决策提供数据支持。 语音定制:语调、风格与口音 语调与上下文匹配:利用 ElevenLabs 等工具,聊天机器人可以根据上下文动态调整语调,如道歉时柔和,庆祝时热情。 非语言沟通的重要性:根据 55/38/7 法则,38% 的沟通来自语音语调,55% 来自非语言线索,因此语音风格需与情感和语境匹配。 口音的多样性:通过模拟区域性口音(如英国的 Geordie 或 Brummie),可以增强文化亲近感和用户参与度。 文本呈现:信息长度与用户体验 信息长度的平衡:根据不同的产品目标(如简洁回答或叙事型互动),调整文本长度和风格。 文本显示方式:GPT 的打字机式呈现增加动态感,但可能让用户感到紧张;Gemini 的预加载动画则更平滑。 认知负荷管理与 UI 简化 界面清晰度:通过隐藏旧消息(如 Pi.ai 的做法),减少视觉干扰,帮助用户专注于当前对话。 调整响应节奏:通过滑块控制语速和停顿时间,满足听力障碍者、非母语用户及高压场景中的需求。 交互模式与语音输入 三种交互模式:包括语音对语音、按住说话和录音模式。其中,按住说话和录音模式在当前技术条件下更可靠。 语音交互改进:最新的 GPT 语音助手支持中断和调整聆听时间,显著提升语音对话的流畅性。 设计过程的迭代性 无一刀切方案:不同场景下,聊天机器人可能需要人性化或机械化的风格。 迭代设计:通过设计、测试和学习的循环,不断优化产品以适应用户需求。 未来方向与技术潜力 区域口音定制:目前尚未广泛实现,但未来可能会成为聊天机器人设计的趋势。 无缝语音对话:尽管技术尚未成熟,但完全自然的语音交互是未来的目标。 原文 从类人交互到语音定制和可访问性,学习如何创建更智能、更以用户为中心的聊天机器人。 人工智能 (AI) 的兴起已经改变了我们对产品设计和开发的看法。像GPT和Gemini这样的平台使得创建具有前所未有的复杂性的聊天机器人成为可能,从而使尖端技术更接近日常应用。但这不仅仅是关于工具或功能——而是关于我们如何对待设计本身的转变。 对于设计师来说,人工智能的引入标志着 新篇章的开始,这要求我们重新思考传统流程并采用全新的方法。构建人工智能驱动的产品远非即插即用的过程;它需要仔细关注用户体验,更深入地了解用户行为,并致力于打造超越功能的解决方案。借助人工智能,我们有绝佳的机会与用户进行更个性化的联系,创建量身定制的体验,以满足他们独特的需求、偏好和限制。 在过去的一年中,我一直沉浸在设计一个人工智能驱动的聊天机器人中,在此过程中收集了宝贵的见解和经验。在本文中,我将分享一些关于如何使聊天机器人体验感觉更真实、自然和用户友好的想法——这些是人们在对话式人工智能中真正寻求的品质。 设计你的聊天机器人的外观 在可视化聊天机器人时,有几种思路。像GPT、Gemini或Google Assistant这样的无面孔聊天机器人通常用简单的插图或图标来表示——尤其是在文本模式下,它们的小头像尺寸需要清晰、可识别的图标。在语音模式下,这些聊天机器人有时会采用抽象的构成,例如GPT、Gemini或最近更新的Siri所看到的视觉风格。这种方法对于旨在集成到各种特定产品中的人工智能模型很常见。(顺便说一句,我是Siri新外观的粉丝!) 随着我们深入构建更专业化的产品,头像策略往往会发生转变。在这些情况下,看到聊天机器人由角色头像表示并不少见。虽然有些人可能觉得这种方法太字面化,但它可能非常有效,尤其是在客户服务等情况下。然而,这种策略存在一个潜在的陷阱:如果头像看起来非常像人类,但没有完全达到感觉真正像人类所需的逼真程度,它就有可能跨入“恐怖谷”。这正是头像感觉几乎像人类但又不够像人类的奇怪时刻,这会给用户带来尴尬或不适的体验。我将在以后的文章中进一步探讨这个问题。 Praktika.ai:由生成式人工智能头像驱动的自动化一对一辅导 选择正确的设计 如果您不确定应该采用哪种方法,请考虑允许用户在设置中自定义聊天机器人的外观。提供一些不同的选项,包括抽象和字面的表示,并让用户选择他们的偏好。这种方法不仅可以个性化体验,还可以提供有价值的见解——通过分析结果数据,您可以识别趋势并做出更明智的设计决策。 定制语音:音调和风格 随着像 ElevenLabs 这样的产品的进步,我们现在拥有强大的工具来微调聊天机器人语音响应的音调和风格。设计师可以决定是否希望聊天机器人以中性、通用的音调响应,采用更柔和、耳语的风格,甚至根据特定上下文动态调整其音调和语调。...

January 20, 2025 · 1 min · fisherdaddy

生成式 AI – 力量与荣耀 • 彭博新能源财经

本文聚焦生成式 AI 的迅猛发展及其对能源需求的深远影响。作者指出,2025年标志着能源行业和 AI 技术之间的双向觉醒:能源需求成为 AI 扩展的瓶颈,而 AI 技术则推动了能源行业的变革。随着生成式 AI 技术的普及,数据中心的规模和电力需求急剧增加,这引发了关于能源供应、清洁能源使用以及经济和社会影响的广泛讨论。作者还探讨了未来 AI 数据中心的能源解决方案,包括核能、可再生能源和新兴技术,同时强调需要与地方社区和电网合作以实现可持续发展。 生成式 AI 的崛起 生成式 AI 的发展从 2020 年至 2022 年间迅速加速,代表性事件包括 AlphaFold2 的突破和 ChatGPT 的发布。 Nvidia 成为生成式 AI 硬件的核心供应商,其 GPU 的需求激增,市值飙升至超过 3 万亿美元。 AI 的发展受到能源瓶颈的限制,顶尖科技公司纷纷意识到电力供应的重要性。 数据中心的能源挑战 数据中心的电力需求正在迅速上升,尤其是用于 AI 模型训练的高功率数据中心。 当前全球数据中心的平均功率为 10MW,而 AI 专用数据中心的规模已达到 75MW 至 150MW,未来甚至可能扩展到 1GW 至 2GW。 数据中心的选址正在从城市转向靠近清洁能源供应的偏远地区。 能源需求预测与不确定性 对未来 AI 数据中心能源需求的预测差异巨大,从保守的 35% 增长到 2030 年的 250% 增长不等。 GPU 的能效持续提升,但仍无法完全抵消其快速增长的需求。 作者预测美国数据中心的电力需求到 2030 年将翻倍,增加约 30GW。 清洁能源与核能的竞争 科技巨头正在探索核能作为数据中心的清洁能源来源,但核能的高成本和复杂性可能成为障碍。 可再生能源(如风能和太阳能)被认为是更现实的解决方案,并可能通过与电池或其他存储技术结合来满足需求。 新兴能源技术(如地热和氢能)虽然有潜力,但仍面临技术和经济上的挑战。 AI 对能源和经济的双重影响 AI 不仅增加了电力需求,还通过优化电网、天气预测、物流和制造等领域的效率来减少能源浪费。 文章提到 Jevons 效应:尽管 AI 提高了能源效率,但其带来的经济活动增长可能进一步推动能源需求。 社会与政策的考量 数据中心的建设需要与地方社区合作,以解决用水、空气质量和技能需求等问题。 作者建议科技公司与电网和监管机构合作,共同优化能源解决方案。 未来的能源政策(如温室气体核算规则的修订)可能对数据中心的能源选择产生深远影响。 未来展望 作者预测,尽管科技公司可能尝试创新能源解决方案,但最有效的方式仍是通过传统的清洁能源技术与电网合作。 他强调,AI 数据中心的建设需要关注长期可持续性,并与地方社区和能源系统共同发展。 最后,作者 Liebreich 以幽默的结尾提醒读者,人脑的功耗仅为 20W,而人类大脑的能效远超机器,暗示尽管 AI 技术进步迅猛,人类依然是不可替代的。...

January 17, 2025 · 6 min · fisherdaddy