关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。 本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。 Scaling laws,即模型训练规模越大,性能越好。 Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。 出口管制的重要性: 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据: DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。 原文 几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。 我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2。 出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。 AI 发展的三个关键动态 在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要: 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下,扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1....

January 31, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI Operator

OpenAI 发布了名为 Operator 的研究预览版智能代理,它能够使用自己的浏览器为用户执行任务。Operator 旨在通过模拟人类在浏览器上的操作(如打字、点击和滚动)来完成各种重复性任务,从而扩展 AI 的实用性,帮助用户节省时间和为企业创造新的互动机会。 技术原理 Operator 由名为 Computer-Using Agent (CUA) 的新模型驱动。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。Operator 可以“看到”(通过屏幕截图)和“交互”(使用鼠标和键盘的所有操作)浏览器,无需自定义 API 集成即可在 Web 上执行操作。 应用场景与合作 Operator 可以处理各种浏览器任务,例如填写表格、订购杂货甚至创建 memes。OpenAI 正在与 DoorDash 、 Instacart 、 OpenTable 、 Priceline 、 StubHub 、 Thumbtack 、 Uber 等公司合作,以确保 Operator 满足现实世界的需求。此外,Operator 在公共部门应用中也具有潜力,例如与 Stockton 市合作,简化市民参与城市服务和计划的流程。 功能与特点 自主操作: Operator 是一个智能代理,用户只需给出任务,它就能独立执行。 广泛的任务处理: 能够处理各种重复性浏览器任务,例如填写表格、订购杂货等。 人机协作: 当遇到挑战或错误时,Operator 能够自我纠正;当遇到困难时,会将控制权交还给用户。 个性化定制: 用户可以通过添加自定义指令来个性化工作流程,并保存常用提示以便快速访问。 多任务处理: 用户可以同时运行多个任务,类似于在浏览器中使用多个标签页。 安全与隐私保障 多层安全防护: Operator 具有三层安全措施,以防止滥用并确保用户始终处于控制之下,包括接管模式、用户确认和任务限制。 数据隐私管理: 用户可以通过 ChatGPT 设置选择退出模型训练,并一键删除所有浏览数据和对话记录。 对抗性网站防御: Operator 具备检测和忽略提示注入、监控可疑行为以及快速更新安全措施的能力,以防御恶意网站的攻击。 局限性与未来展望 研究预览阶段: Operator 仍处于早期研究预览阶段,可能存在错误,尤其是在处理复杂界面时。 持续改进: OpenAI 将根据用户反馈不断改进 Operator 的准确性、可靠性和安全性。 API 开放与功能增强: 未来计划将 CUA 模型通过 API 开放给开发者,并增强 Operator 处理更长、更复杂工作流程的能力。 扩大用户范围: 计划将 Operator 扩展到 Plus 、 Team 和 Enterprise 用户,并将其功能集成到 ChatGPT 中。 合作机构与用户评价 合作机构: DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber, City of Stockton 等。 用户评价: Instacart 首席产品官 Daniel Danker 认为 Operator 是一个技术突破,使订购杂货等流程变得非常容易。Stockton 市信息技术主管 Jamil Niazi 认为 AI 可以使公民参与变得更加容易。 原文 2025 年 1 月 23 日...

January 24, 2025 · 4 min · fisherdaddy

超越机器人:在人工智能 (AI) 时代重新定义聊天机器人设计 • Wojciech Wasilewski

本文探讨了在 AI 时代重新定义聊天机器人设计的必要性。随着 GPT 和 Gemini 等生成式 AI 平台的兴起,聊天机器人变得更加智能和人性化,但其设计不仅仅关乎技术能力,而是需要从用户体验出发,创造更自然、个性化和易于访问的互动体验。作者分享了自己在设计 AI 驱动聊天机器人过程中的经验,强调了视觉设计、语音定制、文本呈现、交互模式等方面的重要性,并提出了如何通过迭代设计来满足用户不断变化的需求。 视觉设计:从抽象到个性化 抽象与具体的设计选择:GPT、Gemini 等聊天机器人通常采用抽象图标,而更专用的产品可能会使用更具体的角色头像。但过于人性化的设计可能引发“恐怖谷”效应。 用户自定义选项:允许用户在抽象和具体设计之间选择,可以提升个性化体验,同时为设计决策提供数据支持。 语音定制:语调、风格与口音 语调与上下文匹配:利用 ElevenLabs 等工具,聊天机器人可以根据上下文动态调整语调,如道歉时柔和,庆祝时热情。 非语言沟通的重要性:根据 55/38/7 法则,38% 的沟通来自语音语调,55% 来自非语言线索,因此语音风格需与情感和语境匹配。 口音的多样性:通过模拟区域性口音(如英国的 Geordie 或 Brummie),可以增强文化亲近感和用户参与度。 文本呈现:信息长度与用户体验 信息长度的平衡:根据不同的产品目标(如简洁回答或叙事型互动),调整文本长度和风格。 文本显示方式:GPT 的打字机式呈现增加动态感,但可能让用户感到紧张;Gemini 的预加载动画则更平滑。 认知负荷管理与 UI 简化 界面清晰度:通过隐藏旧消息(如 Pi.ai 的做法),减少视觉干扰,帮助用户专注于当前对话。 调整响应节奏:通过滑块控制语速和停顿时间,满足听力障碍者、非母语用户及高压场景中的需求。 交互模式与语音输入 三种交互模式:包括语音对语音、按住说话和录音模式。其中,按住说话和录音模式在当前技术条件下更可靠。 语音交互改进:最新的 GPT 语音助手支持中断和调整聆听时间,显著提升语音对话的流畅性。 设计过程的迭代性 无一刀切方案:不同场景下,聊天机器人可能需要人性化或机械化的风格。 迭代设计:通过设计、测试和学习的循环,不断优化产品以适应用户需求。 未来方向与技术潜力 区域口音定制:目前尚未广泛实现,但未来可能会成为聊天机器人设计的趋势。 无缝语音对话:尽管技术尚未成熟,但完全自然的语音交互是未来的目标。 原文 从类人交互到语音定制和可访问性,学习如何创建更智能、更以用户为中心的聊天机器人。 人工智能 (AI) 的兴起已经改变了我们对产品设计和开发的看法。像GPT和Gemini这样的平台使得创建具有前所未有的复杂性的聊天机器人成为可能,从而使尖端技术更接近日常应用。但这不仅仅是关于工具或功能——而是关于我们如何对待设计本身的转变。 对于设计师来说,人工智能的引入标志着 新篇章的开始,这要求我们重新思考传统流程并采用全新的方法。构建人工智能驱动的产品远非即插即用的过程;它需要仔细关注用户体验,更深入地了解用户行为,并致力于打造超越功能的解决方案。借助人工智能,我们有绝佳的机会与用户进行更个性化的联系,创建量身定制的体验,以满足他们独特的需求、偏好和限制。 在过去的一年中,我一直沉浸在设计一个人工智能驱动的聊天机器人中,在此过程中收集了宝贵的见解和经验。在本文中,我将分享一些关于如何使聊天机器人体验感觉更真实、自然和用户友好的想法——这些是人们在对话式人工智能中真正寻求的品质。 设计你的聊天机器人的外观 在可视化聊天机器人时,有几种思路。像GPT、Gemini或Google Assistant这样的无面孔聊天机器人通常用简单的插图或图标来表示——尤其是在文本模式下,它们的小头像尺寸需要清晰、可识别的图标。在语音模式下,这些聊天机器人有时会采用抽象的构成,例如GPT、Gemini或最近更新的Siri所看到的视觉风格。这种方法对于旨在集成到各种特定产品中的人工智能模型很常见。(顺便说一句,我是Siri新外观的粉丝!) 随着我们深入构建更专业化的产品,头像策略往往会发生转变。在这些情况下,看到聊天机器人由角色头像表示并不少见。虽然有些人可能觉得这种方法太字面化,但它可能非常有效,尤其是在客户服务等情况下。然而,这种策略存在一个潜在的陷阱:如果头像看起来非常像人类,但没有完全达到感觉真正像人类所需的逼真程度,它就有可能跨入“恐怖谷”。这正是头像感觉几乎像人类但又不够像人类的奇怪时刻,这会给用户带来尴尬或不适的体验。我将在以后的文章中进一步探讨这个问题。 Praktika.ai:由生成式人工智能头像驱动的自动化一对一辅导 选择正确的设计 如果您不确定应该采用哪种方法,请考虑允许用户在设置中自定义聊天机器人的外观。提供一些不同的选项,包括抽象和字面的表示,并让用户选择他们的偏好。这种方法不仅可以个性化体验,还可以提供有价值的见解——通过分析结果数据,您可以识别趋势并做出更明智的设计决策。 定制语音:音调和风格 随着像 ElevenLabs 这样的产品的进步,我们现在拥有强大的工具来微调聊天机器人语音响应的音调和风格。设计师可以决定是否希望聊天机器人以中性、通用的音调响应,采用更柔和、耳语的风格,甚至根据特定上下文动态调整其音调和语调。...

January 20, 2025 · 1 min · fisherdaddy

Replit:一家探讨计算机未来变革的 AI 编码公司 • Amjad Masad

本文是 Replit 的创始人 Amjad Masad 所写,主要描述了公司从传统编程平台向基于自然语言的“软件生成平台”转型的历程。他强调,Replit 的核心目标已从“帮助用户编写代码”转变为“让用户通过自然语言轻松创建软件”。通过推出名为“Agent”的创新工具,Replit 正在推动软件开发的民主化,使非专业人士也能创建高度定制化的应用程序。这种转变不仅加速了公司的收入增长,还可能彻底改变人们与计算机交互的方式。 Replit 的战略转型与 Agent 的推出 从编程到软件生成:Replit 不再仅仅是一个代码编写工具,而是一个通过自然语言生成软件的平台。 Agent 的成功:2023 年 9 月推出的 Agent 是首个大规模可用的软件代理工具,用户仅需 $25 即可创建 30-40 个小型 SaaS 应用,极大降低了开发成本。 团队重组与增长:尽管因战略调整裁员后团队规模减半,但公司收入在短短 5-6 个月内增长了 5 倍。 Agent 的核心特点与应用 高度定制化:用户可以通过代码调整应用程序的功能,使其完全符合个人需求。例如,Masad 自己使用 Agent 将医生提供的 PDF 表单转化为睡眠记录应用,并不断优化。 全栈解决方案:Replit 提供从开发环境到数据库管理的一站式服务,用户无需具备深厚的技术背景。 人机协作:Agent 依赖“人类在循环中的”模式,用户需不断指导和调整代理的任务方向,避免其“漂移”。 技术基础与行业影响 依赖基础模型:Agent 使用 Anthropic 的 Claude 3.5 模型,并通过工程创新实现了更高效的任务执行。 测试时计算(Test-Time Compute):通过并行运行多个代理并选择最佳结果,Agent 提高了任务完成的可靠性。 未来潜力:尽管目前尚未出现重大突破性的模型,现有技术的持续优化已显著提升实际应用能力。 软件开发的民主化 非专业用户的崛起:Replit 正在缩小程序员与普通用户之间的差距,任何人都可以通过 Agent 创建应用程序。 技能转变:未来的关键技能将是清晰思考、有效地与 AI 系统交互,以及将创意转化为可执行的指令。 应用场景广泛:从工作到生活,用户可以创建满足个人需求的小型应用,而无需依赖昂贵的 SaaS 工具。 行业趋势与挑战 计算能力的限制:Replit 已面临云服务商(如 Google Cloud)计算配额的瓶颈,但 Masad 认为未来的突破可能来自算法改进和数据利用,而非单纯的计算扩展。 自然语言界面的未来:Masad 预测,未来两年内,基于自然语言的用户界面将成为主流,取代鼠标和传统交互方式。 长期愿景 个人软件革命:Replit 希望通过降低开发门槛,让普通用户像使用 PC 和智能手机一样轻松创建软件。 消费者级产品:未来版本的 Replit 将针对普通用户和学生优化,推动软件开发的普及化。 经济潜力:随着平台的易用性提升,预计会出现更多基于 Replit 的创业公司和高收入个人开发者。 原文 Reed Albergotti: 是什么促使你转向 AI 智能体 (Agent) 方向的?...

January 20, 2025 · 3 min · fisherdaddy

生成式 AI – 力量与荣耀 • 彭博新能源财经

本文聚焦生成式 AI 的迅猛发展及其对能源需求的深远影响。作者指出,2025年标志着能源行业和 AI 技术之间的双向觉醒:能源需求成为 AI 扩展的瓶颈,而 AI 技术则推动了能源行业的变革。随着生成式 AI 技术的普及,数据中心的规模和电力需求急剧增加,这引发了关于能源供应、清洁能源使用以及经济和社会影响的广泛讨论。作者还探讨了未来 AI 数据中心的能源解决方案,包括核能、可再生能源和新兴技术,同时强调需要与地方社区和电网合作以实现可持续发展。 生成式 AI 的崛起 生成式 AI 的发展从 2020 年至 2022 年间迅速加速,代表性事件包括 AlphaFold2 的突破和 ChatGPT 的发布。 Nvidia 成为生成式 AI 硬件的核心供应商,其 GPU 的需求激增,市值飙升至超过 3 万亿美元。 AI 的发展受到能源瓶颈的限制,顶尖科技公司纷纷意识到电力供应的重要性。 数据中心的能源挑战 数据中心的电力需求正在迅速上升,尤其是用于 AI 模型训练的高功率数据中心。 当前全球数据中心的平均功率为 10MW,而 AI 专用数据中心的规模已达到 75MW 至 150MW,未来甚至可能扩展到 1GW 至 2GW。 数据中心的选址正在从城市转向靠近清洁能源供应的偏远地区。 能源需求预测与不确定性 对未来 AI 数据中心能源需求的预测差异巨大,从保守的 35% 增长到 2030 年的 250% 增长不等。 GPU 的能效持续提升,但仍无法完全抵消其快速增长的需求。 作者预测美国数据中心的电力需求到 2030 年将翻倍,增加约 30GW。 清洁能源与核能的竞争 科技巨头正在探索核能作为数据中心的清洁能源来源,但核能的高成本和复杂性可能成为障碍。 可再生能源(如风能和太阳能)被认为是更现实的解决方案,并可能通过与电池或其他存储技术结合来满足需求。 新兴能源技术(如地热和氢能)虽然有潜力,但仍面临技术和经济上的挑战。 AI 对能源和经济的双重影响 AI 不仅增加了电力需求,还通过优化电网、天气预测、物流和制造等领域的效率来减少能源浪费。 文章提到 Jevons 效应:尽管 AI 提高了能源效率,但其带来的经济活动增长可能进一步推动能源需求。 社会与政策的考量 数据中心的建设需要与地方社区合作,以解决用水、空气质量和技能需求等问题。 作者建议科技公司与电网和监管机构合作,共同优化能源解决方案。 未来的能源政策(如温室气体核算规则的修订)可能对数据中心的能源选择产生深远影响。 未来展望 作者预测,尽管科技公司可能尝试创新能源解决方案,但最有效的方式仍是通过传统的清洁能源技术与电网合作。 他强调,AI 数据中心的建设需要关注长期可持续性,并与地方社区和能源系统共同发展。 最后,作者 Liebreich 以幽默的结尾提醒读者,人脑的功耗仅为 20W,而人类大脑的能效远超机器,暗示尽管 AI 技术进步迅猛,人类依然是不可替代的。...

January 17, 2025 · 6 min · fisherdaddy

闫俊杰的核心认知分享:MiniMax 的 AI 进化之路

本文来自于晚点 2025年 1 月对 MiniMax 创始人兼 CEO 闫俊杰的访谈,以下是闫俊杰的一些核心认知。 闫俊杰认为,AI 大模型的发展逻辑与移动互联网不同,不应依赖用户反馈来提升模型能力。他指出,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。他强调,技术驱动是 AI 公司发展的核心,并认为开源能加速技术进化。他认为,AI 领域需要清晰定义模型能力分级,并通过技术手段逼近定义好的指标,而不是通过大量的 AB 测试和用户反馈来迭代模型。 MiniMax 的技术选择 MiniMax 发布了首个开源模型 MiniMax-01 系列,该模型在 4000 亿以上参数的大模型中,首次使用了线性注意力机制新架构,能高效处理 400 万 token 上下文。闫俊杰认为 long-context(长上下文)是 Agent(智能体)的重要能力。MiniMax 没有第一批跟进 OpenAI o 系列模型,而是选择了线性注意力机制,这与行业共识不同。 对用户和产品的看法 闫俊杰认为,用户数量并非 AI 竞争的核心,不应使用移动互联网的产品方法论来思考 AI 产品。他认为,AI 产品的重点在于模型能力的提升,而非用户反馈。他指出,“ChatGPT” 的 DAU 是 “Claude” 的 50 倍到 100 倍,但它们的模型其实差不多,这说明智能水平的提升,没那么依赖很多用户。 开源的意义 闫俊杰认为,开源能加速技术进化,并有助于建立技术品牌。他表示,MiniMax 开源模型不会藏更好的东西,因为所有模型一年之后都会落后。他认为,技术品牌之所以重要,本质也是因为这个行业最大的驱动力是技术进化。 对行业误区的反思 闫俊杰指出,中国大部分公司,包括创业公司和大厂,都在用做推荐系统的方法来做大模型产品,这是一种误区。他认为,应该非常清晰地定义模型能力分级,然后搞清楚每一代提升,需要什么样的算法、数据和推理过程,通过技术手段来逼近定义好的指标。 技术驱动的体现 MiniMax 在产品开发中,优先考虑算法上限高的功能,即使这会影响用户体验。例如,海螺视频虽然访问量很高,但页面仍然粗糙,因为 MiniMax 优先考虑算法的进步。 对 Agent 的看法 闫俊杰认为,Agent 的重要能力在于处理长上下文和多 Agent 之间的协同。他认为,AI 的发展方向是能处理复杂任务,达到专业人士的水平。他认为,Agent 最先落地的场景是 coding 和信息的获取。...

January 17, 2025 · 1 min · fisherdaddy

o1 不是一个聊天模型 (这正是重点) • Ben Hylak

swyx 在此:我们很荣幸地推出 2025 年的第一篇客座文章1!这篇文章在 gdb、...

January 13, 2025 · 2 min · fisherdaddy

2025 年科技和 AI 的十大预测 • Ashu Garg

本文由 Foundation Capital 合伙人 Ashu Garg 撰写,回顾了 2024年科技界的里程碑,并探讨了 2025 年的前景。核心内容包括: AI 成本与普及 从 2021 年 GPT-3 的每百万标记 $60 的成本,到 2024 年 Meta 的 Llama 3.2 降至 $0.06,这一成本下降速度创下历史记录。 AI 已渗透至多个行业,其市场影响力占 S&P 500 市值的约一半。 技术进步与系统架构 AI 模型的进步正在转向推理能力,例如 OpenAI 的 o3 模型通过生成详细的推理路径,在 ARC-AGI 和 FrontierMath 等基准测试中取得了显著突破。 推理能力的提升需要更高的计算成本,但效率改进将推动未来发展。 未来的竞争将集中于系统架构,而非模型规模。 商业模式与市场扩展 AI 正在从传统的软件预算转向更大的服务市场,其目标是直接完成工作,而非仅提供工具。 成果导向的定价模式正在兴起,挑战传统软件公司的收入模式。 硬件市场的变化 预训练的高吞吐量需求使 NVIDIA 占据主导地位,但推理阶段对延迟和分布式计算的需求为其他厂商创造了机会。 多家科技巨头(如苹果、微软、谷歌等)和初创公司正在开发定制芯片。 AI 原生平台与用户体验 AI 原生平台正在重新定义企业软件,如销售平台从文本记录转向多模态处理。 新的用户界面将支持更复杂的 AI 交互,如 OpenAI 的 Canvas 和 Google’s NotebookLM。 搜索与信息获取的变革 AI 原生搜索(如 ChatGPT 和 Perplexity)正在取代传统搜索引擎,提供直接的综合答案。 Meta 的社交图谱可能进一步挑战 Google 的搜索主导地位。 开源与多模型战略 Meta 的 Llama 开源模型正在成为行业标准,降低了 AI 开发的进入门槛。 企业正在采用多模型战略,避免对单一模型的依赖。 自动驾驶与社会信任 Waymo 的自动驾驶汽车在复杂场景中的表现正在增强公众对 AI 的信任。 自动驾驶的普及将带来安全、生产力和城市设计的改善。 初创公司的机遇 开源模型和推理策略的进步使小型团队能够与大公司竞争,特别是在垂直领域和“最后一公里”应用中。 人类创造力与 AI 的未来 技术限制正在减少,AI 的未来发展将更多依赖于人类的创造力和想象力。 原文 对我来说,2024年科技领域的故事可以用一个数字来概括:1000倍。...

January 13, 2025 · 3 min · fisherdaddy

解密 AI Agent:新手指南 • MongoDB

本文围绕 AI agents(人工智能代理) 的定义、发展历程、核心组件、特性及其在现代应用中的价值展开探讨。AI agents 是一种结合人工智能和代理特性,具备环境感知、自主决策、工具使用以及目标导向行为的计算实体。其演化路径从传统基于规则的聊天机器人,到以大语言模型(LLM)为核心的生成式 AI 系统,再到结合检索增强生成(RAG)技术的复杂代理系统。AI agents 的出现标志着现代 AI 应用从简单交互向复杂、多功能系统的转变,并在生产力提升、决策支持和降低技术门槛等方面展现了巨大潜力。 AI agents 的定义与核心特性 定义:AI agents 是一种具备环境感知能力的计算实体,通过感知(输入)、行动(工具使用)和认知(基于 LLM 的推理与规划)实现自主决策和目标导向行为。 核心特性: 自主性:无需外部指令即可根据内部处理结果或外部观察采取行动。 交互性:与人类、其他代理或系统交互,能够根据上下文调整行为。 反应性与主动性:能对环境变化做出动态响应,同时通过推理与规划主动执行任务。 迭代性:通过反馈不断优化执行步骤,适应复杂任务。 AI agents 的发展历程 传统聊天机器人: 基于规则(如“如果…则…”逻辑)和预定义响应。 功能有限,需人工介入完成复杂任务。 LLM 驱动的聊天机器人: 引入生成式预训练变换器(GPT)模型,具备生成类人文本的能力。 克服了传统聊天机器人的局限,但存在个性化不足和“幻觉”(生成错误信息)问题。 RAG(检索增强生成)聊天机器人: 结合外部数据检索与 LLM 的内在知识,生成更准确和上下文相关的响应。 通过提示工程(Prompt Engineering)优化模型输出,如链式思维(CoT)和 ReAct 技术。 AI agents 的出现: 随 LLM 的参数规模增长,出现推理、多步规划和工具调用等能力。 结合工具使用、环境感知和迭代执行,形成具备高度自主性的复杂代理系统。 AI agents 的核心组件 大脑(Brain): 基于 LLM 提供推理、规划和决策能力。 包括记忆模块(存储历史交互)、角色模块(基于描述模拟特定行为)和知识模块(存储领域相关信息)。 行动(Action): 通过工具使用或功能调用完成任务。 能分解任务为多个步骤,并动态决定工具的使用时机。 感知(Perception): 处理环境输入(如文本、图像或语音),为决策提供信息。 AI agents 的价值与影响 生产力提升:通过自动化重复性任务(如审批、文档处理),减少人工干预。 决策支持:基于规则和指导方针辅助企业工作流中的决策。 降低技术门槛:通过自然语言和图像驱动的界面,使非技术用户更容易与系统交互。 多样化应用场景:从代码生成到内容创作,再到企业流程优化,AI agents 展现了广泛的应用潜力。 当前行业努力方向 可靠性:解决 LLM 的“幻觉”问题,确保输出准确性。 可扩展性:优化模型性能以应对不断增长的数据和计算需求。 性能提升:通过更强大的工具和工作流编排提高系统效率。 MongoDB 的支持: 提供长期数据管理(如对话历史存储)、向量数据库功能和可扩展数据存储,为 AI agents 提供基础设施支持。 AI agents 的未来展望 代理性(Agentic):AI 系统的分类基于其代理特性(如自主性、环境交互能力和目标导向行为)的强弱程度。 灵活性与适应性:AI agents 的发展可能模糊简单 AI 系统与复杂代理系统之间的界限。 行业影响与价值实现 生产力提升:通过自动化简化企业工作流。 用户友好性:降低技术复杂性,赋能普通用户。 企业决策支持:通过规则驱动的 AI 代理简化复杂流程。 MongoDB 的技术支持 长时数据管理:存储和检索对话历史,保持上下文。 向量数据库:支持语义搜索和 AI 工作负载。 可扩展存储:满足不断增长的数据需求。 原文 什么是 AI 智能体 (AI Agent)?...

January 10, 2025 · 4 min · fisherdaddy

Duolingo:120 亿美元的游戏化设计秘籍

连胜激励: Duolingo 使用连胜功能鼓励用户每天坚持练习。用户为了保持连胜,逐渐养成了稳定的学习习惯。这项功能显著提升了用户留存率,使第 14 天的留存率提高了 14%。 排行榜激发竞争: Duolingo 利用排行榜激发用户的竞争心理。它不仅推动了用户语言技能的提升,还增强了用户之间的互动和社区归属感。 成就徽章奖励: 用户在完成特定任务时会获得徽章奖励,这种设计增强了他们的成就感。由于用户喜欢与朋友分享这些成就,推荐率也因此提升了 116%。 即时反馈助力进步: Duolingo 为练习提供即时反馈,帮助用户迅速发现问题并改进。通过声音和提示强化用户体验,有效提高了学习的趣味性和参与度。 吉祥物 Duo 的友好提醒: Duolingo 的绿色猫头鹰吉祥物 Duo 为通知增加了温馨的个人化互动,使用户觉得通知友好而非打扰。此举让日活跃用户提升了 5%。 进度条直观激励: 进度条清晰展示用户已完成的内容和剩余的任务,鼓励他们完成课程并不断进阶。 游戏化挑战与活动: Duolingo 定期推出如“XP 冲刺挑战”这样的活动,创造紧迫感和兴奋感,激励用户积极参与并获取奖励。 社交功能构建社区: 通过“好友任务”等功能,Duolingo 鼓励用户团队协作,达成共同目标,从而营造出社区感和协作氛围。 主题化学习增加趣味: 课程根据不同主题分组(如日常问候),为学习提供具体情境,让学习内容更贴近实际生活且更有趣味性。 A/B 测试推动优化: Duolingo 通过大规模 A/B 测试,不断改进游戏化策略,确保功能能更好地吸引用户并提高留存率。 稀缺与独特体验: 独家俱乐部等功能通过营造稀缺感,让用户在解锁成就或晋级时感到与众不同。

January 10, 2025 · 1 min · fisherdaddy