o1 不是一个聊天模型 (这正是重点) • Ben Hylak

swyx 在此:我们很荣幸地推出 2025 年的第一篇客座文章1!这篇文章在 gdb、...

January 13, 2025 · 2 min · fisherdaddy

2025 年科技和 AI 的十大预测 • Ashu Garg

本文由 Foundation Capital 合伙人 Ashu Garg 撰写,回顾了 2024年科技界的里程碑,并探讨了 2025 年的前景。核心内容包括: AI 成本与普及 从 2021 年 GPT-3 的每百万标记 $60 的成本,到 2024 年 Meta 的 Llama 3.2 降至 $0.06,这一成本下降速度创下历史记录。 AI 已渗透至多个行业,其市场影响力占 S&P 500 市值的约一半。 技术进步与系统架构 AI 模型的进步正在转向推理能力,例如 OpenAI 的 o3 模型通过生成详细的推理路径,在 ARC-AGI 和 FrontierMath 等基准测试中取得了显著突破。 推理能力的提升需要更高的计算成本,但效率改进将推动未来发展。 未来的竞争将集中于系统架构,而非模型规模。 商业模式与市场扩展 AI 正在从传统的软件预算转向更大的服务市场,其目标是直接完成工作,而非仅提供工具。 成果导向的定价模式正在兴起,挑战传统软件公司的收入模式。 硬件市场的变化 预训练的高吞吐量需求使 NVIDIA 占据主导地位,但推理阶段对延迟和分布式计算的需求为其他厂商创造了机会。 多家科技巨头(如苹果、微软、谷歌等)和初创公司正在开发定制芯片。 AI 原生平台与用户体验 AI 原生平台正在重新定义企业软件,如销售平台从文本记录转向多模态处理。 新的用户界面将支持更复杂的 AI 交互,如 OpenAI 的 Canvas 和 Google’s NotebookLM。 搜索与信息获取的变革 AI 原生搜索(如 ChatGPT 和 Perplexity)正在取代传统搜索引擎,提供直接的综合答案。 Meta 的社交图谱可能进一步挑战 Google 的搜索主导地位。 开源与多模型战略 Meta 的 Llama 开源模型正在成为行业标准,降低了 AI 开发的进入门槛。 企业正在采用多模型战略,避免对单一模型的依赖。 自动驾驶与社会信任 Waymo 的自动驾驶汽车在复杂场景中的表现正在增强公众对 AI 的信任。 自动驾驶的普及将带来安全、生产力和城市设计的改善。 初创公司的机遇 开源模型和推理策略的进步使小型团队能够与大公司竞争,特别是在垂直领域和“最后一公里”应用中。 人类创造力与 AI 的未来 技术限制正在减少,AI 的未来发展将更多依赖于人类的创造力和想象力。 原文 对我来说,2024年科技领域的故事可以用一个数字来概括:1000倍。...

January 13, 2025 · 3 min · fisherdaddy

解密 AI Agent:新手指南 • MongoDB

本文围绕 AI agents(人工智能代理) 的定义、发展历程、核心组件、特性及其在现代应用中的价值展开探讨。AI agents 是一种结合人工智能和代理特性,具备环境感知、自主决策、工具使用以及目标导向行为的计算实体。其演化路径从传统基于规则的聊天机器人,到以大语言模型(LLM)为核心的生成式 AI 系统,再到结合检索增强生成(RAG)技术的复杂代理系统。AI agents 的出现标志着现代 AI 应用从简单交互向复杂、多功能系统的转变,并在生产力提升、决策支持和降低技术门槛等方面展现了巨大潜力。 AI agents 的定义与核心特性 定义:AI agents 是一种具备环境感知能力的计算实体,通过感知(输入)、行动(工具使用)和认知(基于 LLM 的推理与规划)实现自主决策和目标导向行为。 核心特性: 自主性:无需外部指令即可根据内部处理结果或外部观察采取行动。 交互性:与人类、其他代理或系统交互,能够根据上下文调整行为。 反应性与主动性:能对环境变化做出动态响应,同时通过推理与规划主动执行任务。 迭代性:通过反馈不断优化执行步骤,适应复杂任务。 AI agents 的发展历程 传统聊天机器人: 基于规则(如“如果…则…”逻辑)和预定义响应。 功能有限,需人工介入完成复杂任务。 LLM 驱动的聊天机器人: 引入生成式预训练变换器(GPT)模型,具备生成类人文本的能力。 克服了传统聊天机器人的局限,但存在个性化不足和“幻觉”(生成错误信息)问题。 RAG(检索增强生成)聊天机器人: 结合外部数据检索与 LLM 的内在知识,生成更准确和上下文相关的响应。 通过提示工程(Prompt Engineering)优化模型输出,如链式思维(CoT)和 ReAct 技术。 AI agents 的出现: 随 LLM 的参数规模增长,出现推理、多步规划和工具调用等能力。 结合工具使用、环境感知和迭代执行,形成具备高度自主性的复杂代理系统。 AI agents 的核心组件 大脑(Brain): 基于 LLM 提供推理、规划和决策能力。 包括记忆模块(存储历史交互)、角色模块(基于描述模拟特定行为)和知识模块(存储领域相关信息)。 行动(Action): 通过工具使用或功能调用完成任务。 能分解任务为多个步骤,并动态决定工具的使用时机。 感知(Perception): 处理环境输入(如文本、图像或语音),为决策提供信息。 AI agents 的价值与影响 生产力提升:通过自动化重复性任务(如审批、文档处理),减少人工干预。 决策支持:基于规则和指导方针辅助企业工作流中的决策。 降低技术门槛:通过自然语言和图像驱动的界面,使非技术用户更容易与系统交互。 多样化应用场景:从代码生成到内容创作,再到企业流程优化,AI agents 展现了广泛的应用潜力。 当前行业努力方向 可靠性:解决 LLM 的“幻觉”问题,确保输出准确性。 可扩展性:优化模型性能以应对不断增长的数据和计算需求。 性能提升:通过更强大的工具和工作流编排提高系统效率。 MongoDB 的支持: 提供长期数据管理(如对话历史存储)、向量数据库功能和可扩展数据存储,为 AI agents 提供基础设施支持。 AI agents 的未来展望 代理性(Agentic):AI 系统的分类基于其代理特性(如自主性、环境交互能力和目标导向行为)的强弱程度。 灵活性与适应性:AI agents 的发展可能模糊简单 AI 系统与复杂代理系统之间的界限。 行业影响与价值实现 生产力提升:通过自动化简化企业工作流。 用户友好性:降低技术复杂性,赋能普通用户。 企业决策支持:通过规则驱动的 AI 代理简化复杂流程。 MongoDB 的技术支持 长时数据管理:存储和检索对话历史,保持上下文。 向量数据库:支持语义搜索和 AI 工作负载。 可扩展存储:满足不断增长的数据需求。 原文 什么是 AI 智能体 (AI Agent)?...

January 10, 2025 · 4 min · fisherdaddy

Duolingo:120 亿美元的游戏化设计秘籍

连胜激励: Duolingo 使用连胜功能鼓励用户每天坚持练习。用户为了保持连胜,逐渐养成了稳定的学习习惯。这项功能显著提升了用户留存率,使第 14 天的留存率提高了 14%。 排行榜激发竞争: Duolingo 利用排行榜激发用户的竞争心理。它不仅推动了用户语言技能的提升,还增强了用户之间的互动和社区归属感。 成就徽章奖励: 用户在完成特定任务时会获得徽章奖励,这种设计增强了他们的成就感。由于用户喜欢与朋友分享这些成就,推荐率也因此提升了 116%。 即时反馈助力进步: Duolingo 为练习提供即时反馈,帮助用户迅速发现问题并改进。通过声音和提示强化用户体验,有效提高了学习的趣味性和参与度。 吉祥物 Duo 的友好提醒: Duolingo 的绿色猫头鹰吉祥物 Duo 为通知增加了温馨的个人化互动,使用户觉得通知友好而非打扰。此举让日活跃用户提升了 5%。 进度条直观激励: 进度条清晰展示用户已完成的内容和剩余的任务,鼓励他们完成课程并不断进阶。 游戏化挑战与活动: Duolingo 定期推出如“XP 冲刺挑战”这样的活动,创造紧迫感和兴奋感,激励用户积极参与并获取奖励。 社交功能构建社区: 通过“好友任务”等功能,Duolingo 鼓励用户团队协作,达成共同目标,从而营造出社区感和协作氛围。 主题化学习增加趣味: 课程根据不同主题分组(如日常问候),为学习提供具体情境,让学习内容更贴近实际生活且更有趣味性。 A/B 测试推动优化: Duolingo 通过大规模 A/B 测试,不断改进游戏化策略,确保功能能更好地吸引用户并提高留存率。 稀缺与独特体验: 独家俱乐部等功能通过营造稀缺感,让用户在解锁成就或晋级时感到与众不同。

January 10, 2025 · 1 min · fisherdaddy

解码 AI TOPS:理解 AI 芯片的关键指标与性能对比 • Ernest Chiang

(插图: 幕后付出了诸多努力。 Le Bouchon Ogasawara,位于东京涩谷。 图片来源:Ernest) tl;drTOPS (每秒万亿次运算, Trillions of Operations Per Second) 是衡量 AI 芯片和 NPU 芯片计算能力的重要指标,它表示处理器每秒能执行的万亿次运算次数。我们可以用“煎鸡蛋”来形象理解 TOPS: 普通 CPU 就像一位每次只能煎一个鸡蛋的厨师,而高 TOPS 值的 AI 芯片则像一位可以同时煎无数鸡蛋的超级厨师。TOPS 是对比 AI 芯片性能的重要参考,但在评估 AI 硬件时,我们还应该综合考虑能效、内存带宽等因素。 此外,TOPS 值通常代表的是理论峰值性能,实际性能还需要结合具体应用场景进行评估。什么是 TOPS(通俗易懂版)TOPS,全称 每秒万亿次运算 (Trillions of Operations Per Second),是衡量人工智能 (AI) 芯片或神经处理单元 (NPU) 计算能力的关键指标。它表示处理器每秒能够执行的最大运算次数,以万亿为单位。 随着计算能力的不断提升,未来可能会出现更大的单位来替代 “万亿”。 为了更直观地理解 TOPS,我们可以用一个生活化的例子来解释: 将 AI 计算 想象成 煎鸡蛋的过程,而 数据 则是 待煎的鸡蛋。 一个普通厨师(相当于普通 CPU)可能一次只能煎一个鸡蛋,而一个超级厨师(相当于 AI 芯片)则可以同时煎一万亿个鸡蛋! TOPS 就好比衡量这位 “超级厨师” 能力的指标,告诉我们他每秒可以 “处理” 多少个 “数据鸡蛋”。 TOPS 是理解和比较 AI 芯片性能的重要参考之一,但并非唯一标准。...

January 9, 2025 · 10 min · fisherdaddy

Agents 白皮书 • Google

简介 人类在处理杂乱无章的模式识别任务方面非常擅长。然而,他们往往会借助工具,例如书籍、Google 搜索或计算器,来补充已有知识,从而得出最终结论。同样,生成式 AI (Generative AI) 模型也可以通过训练学会使用工具,以获取实时信息或提供实际行动建议。比如,一个模型可以使用数据库检索工具来获取特定信息,例如客户的购买记录,从而生成个性化的购物推荐。又或者,模型可以根据用户的需求调用 API,完成发送邮件回复同事或代表用户进行金融交易等操作。 为了实现这些功能,生成式 AI 模型不仅需要能访问外部工具,还必须具备自我规划和执行任务的能力。这种结合推理能力、逻辑分析与外部信息访问功能的方式,进一步引入了智能体 (Agent) 的概念。智能体是一种可以扩展生成式 AI 模型能力的程序,使其功能超越了单一模型的局限。本白皮书将深入探讨这些概念及其相关内容。 摘要 本文探讨了生成式 AI 代理(Agents)的核心概念、组成结构及其在认知架构中的应用。代理通过结合语言模型(Language Models, LMs)、工具(Tools)和编排层(Orchestration Layer)来扩展语言模型的能力,使其能够执行复杂任务、自主决策并与外部世界交互。代理不仅能通过推理和规划完成目标,还能利用外部工具(如 API、数据存储等)获取实时信息或执行具体操作,从而弥补单一语言模型的局限性。 代理的定义与核心组成 代理的定义:代理是一个能够观察世界、使用工具并采取行动以实现目标的应用程序,具有自主性和主动性。 核心组成: 模型(Model):代理的核心决策引擎,通常是语言模型(如 GPT 系列)。支持多模态、通用或经过微调的模型。 工具(Tools):弥补模型无法直接与外界交互的缺陷,允许代理访问实时数据和执行操作。 编排层(Orchestration Layer):负责信息处理、推理、规划和决策,支持循环执行直到目标达成。 代理与模型的区别 模型:仅限于训练数据,无法与外界交互,且不具备持续上下文管理能力。 代理:通过工具扩展知识范围,支持多轮推理和上下文管理,并内置逻辑层(如 ReAct、Chain-of-Thought)。 认知架构与推理框架 认知架构:代理通过信息收集、内部推理、执行和调整的循环流程实现目标。 推理框架: ReAct:结合推理和行动的框架,适用于动态任务。 Chain-of-Thought (CoT):通过中间步骤实现推理能力,适合多步推理。 Tree-of-Thoughts (ToT):适用于探索性或战略性任务。 工具的作用与类型 工具的定义:工具是代理与外界交互的关键,可分为以下三种类型: 扩展(Extensions):代理与 API 的桥梁,直接在代理端执行 API 调用。 函数(Functions):在客户端执行的代码模块,提供更高的控制灵活性。 数据存储(Data Stores):通过向量数据库为代理提供动态、实时的数据支持,适用于结构化和非结构化数据。 应用示例 扩展的使用:通过示例教学让代理调用 API(如航班预订 API)。 函数调用:代理生成函数参数,由客户端执行 API 调用,适用于需要额外数据处理或安全性要求的场景。 数据存储的实现:通过向量搜索(如 RAG 方法)实现动态知识扩展,使代理能够访问实时信息。 模型性能提升 方法: 上下文学习(In-context Learning):通过少量示例实时学习任务。 基于检索的上下文学习:动态从外部存储中检索相关信息。 微调(Fine-tuning):通过特定数据集训练模型以提升任务表现。 结合优势:通过组合上述方法,代理可以在速度、成本和准确性之间取得平衡。 工具与平台支持 LangChain 示例:通过 LangChain 和 LangGraph 构建多阶段任务代理,结合工具(如 SerpAPI 和 Google Places API)实现复杂查询。 Vertex AI 平台:提供全面的托管环境,支持代理的开发、测试、评估和优化,简化生产级应用的构建。 8....

January 8, 2025 · 1 min · fisherdaddy

2025 年 AI 展望 • Andrew Ng

本文展望了 2025 年人工智能(AI)的发展趋势和希望,通过多位领域专家的观点,探讨了 AI 在技术、应用和社会影响方面的潜力与挑战。 技术进步与应用前景 快速原型开发与生产力提升 AI 辅助编码显著降低了构建软件原型的成本与时间。例如,用 AI 构建教育工具或金融分析工具只需数小时。 平台如 Bolt 和 Replit Agent 不仅提高代码质量,还简化了应用的部署流程。 生成式 AI 的未来 创意与定制化:生成式 AI 将解放创作者的时间,使其专注于创造性工作。未来将出现更多小型、专用模型以满足特定需求。 多模态生成:结合视频、音频的生成模型将推动电影制作等领域的创新,例如同时生成视频和音轨的工具。 用户控制:未来的生成工具将提供更多控制选项,例如音乐的旋律、和声或视频的场景细节。 AI 通用性与代理型 AI 当前的 AI 系统已具备“通用性”,能够完成广泛任务并适应不同场景。 “代理型 AI”即具有执行具体任务能力的人工智能,将成为未来的核心,帮助用户完成日常任务并提升生产力。 数据效率与模型优化 当前 AI 模型依赖大规模数据,未来的重点是通过更高效的算法和架构减少数据需求。 数据效率的提升将解决模型的解释性、鲁棒性和多模态学习等问题,同时降低开发成本,促进技术民主化。 社会与文化影响 AI 的社会价值 AI 应优化推荐算法,优先展示“桥梁内容”,帮助不同群体找到共同点。 通过参与式方法(如 Polis 工具),AI 可以促进社会共识,减少偏见与分裂。 安全与责任 生成式 AI 的部署需要高标准的安全性和责任感,特别是在“代理型 AI”执行任务时。 减少“幻觉”问题(即 AI 输出错误信息)是 2025 年的关键任务,未来 AI 将比搜索引擎更可靠。 教育与学习的变革 AI 正在改变学习方式,例如生成个性化的考试题目或重新解释课程内容。2025 年,AI 可能成为人们首选的学习助手。 社会团结与治理 AI 平台需嵌入社会价值指标(如促进建设性对话),以推动民主和社会和谐。 开发和治理 AI 的过程中,应广泛吸纳多元声音,确保技术公平性与包容性。 通过技术创新与社会责任的结合,2025 年的 AI 发展将不仅推动生产力和创造力,还可能重塑人与人之间的互动方式,成为促进社会进步的重要力量。...

January 8, 2025 · 3 min · fisherdaddy

大型语言模型如何工作。从 0 到 ChatGPT • Andreas Stöffelbauer

本文由微软数据科学家 Andreas Stöffelbauer 撰写,旨在以直观的方式解释大型语言模型(Large Language Models, LLMs)的工作原理,从基础的机器学习概念到 ChatGPT 的核心机制,帮助读者理解 LLMs 的训练过程、能力以及应用场景。作者通过分层讲解人工智能、机器学习、深度学习和 LLMs 的发展路径,揭示了这些模型如何从大规模数据中学习语言规律,并通过生成式方法实现自然语言处理任务。文章还探讨了 LLMs 的局限性(如“幻觉”现象)及其在未来改进的潜力。 关键细节 1. 人工智能的层次结构 人工智能 (AI):涵盖所有智能机器的研究。 机器学习 (ML):AI 的子领域,专注于从数据中发现模式。 深度学习 (DL):机器学习的分支,处理非结构化数据(如文本、图像),依赖人工神经网络。 大型语言模型 (LLMs):深度学习的应用,专注于文本数据处理。 2. 机器学习基础 核心目标:发现输入与输出之间的模式关系。 分类任务:如音乐流派分类,基于输入特征(如节奏和能量)预测输出类别。 复杂性提升:输入变量数量、类别数量的增加使模型复杂度上升,需要更强大的模型和更多数据。 3. 深度学习与神经网络 神经网络:模仿人脑结构,由多层神经元组成,能够建模高度非线性关系。 深度学习:通过多层神经网络处理复杂任务,如图像分类和情感分析。 规模化的突破:现代 LLMs(如 GPT-4)拥有数十亿到上万亿参数,能够处理极其复杂的输入输出关系。 4. 大型语言模型的核心机制 语言建模:通过预测下一词,学习语言的语法、语义和上下文关系。 训练数据:基于大量文本数据进行自监督学习,无需人工标注。 生成式 AI:通过逐词生成文本,实现自然语言生成。 5. ChatGPT 的三阶段训练 预训练:使用大规模文本数据训练模型预测下一词,掌握语言规则和世界知识。 指令微调:通过高质量的指令-响应对,训练模型理解并响应用户指令。 人类反馈强化学习 (RLHF):优化模型输出,使其更符合人类价值和偏好。 6. LLMs 的应用与能力 文本生成:通过逐词预测生成连贯的文本。 任务解决: 零样本学习 (Zero-shot):无需示例即可完成新任务。 Few-shot 学习:通过提供少量示例提升任务表现。 链式思维 (Chain-of-thought):逐步推理解决复杂问题。 幻觉问题:LLMs 有时会生成错误信息,因其训练目标并非事实准确性。 7. LLMs 的未来与局限 潜在问题:幻觉现象、知识更新滞后、对真伪信息的区分能力不足。 改进方向:通过上下文补充、搜索引擎集成(如 Bing Chat)等方法增强模型的准确性和实时性。 发展潜力:LLMs 展现了超越训练数据的新兴能力(如零样本任务),未来可能进一步接近通用人工智能。 8....

January 7, 2025 · 3 min · fisherdaddy

2024年顶级 AI 故事!AI 智能体崛起,价格下跌,模型缩小,以及更多 • Andrew Ng

本文是吴恩达对 2024年 AI 的总结。2024 年是人工智能(AI)领域快速发展的一年,技术和应用均取得了显著进步。AI 模型变得更快、更便宜、更小,且多模态和推理能力更强。AI 应用的普及速度超过了技术本身的发展,特别是在自动化、客户服务和问答等领域。与此同时,生成式视频、代理系统(agentic systems)和小型模型成为焦点,价格战加剧了竞争,技术巨头通过创新合作模式获取技术和人才。 关键细节 1. 代理系统崛起 发展概况:代理系统(agentic systems)通过迭代提示大语言模型(LLMs),显著提升了任务执行能力。多个工具和框架支持代理工作流,例如: 微软 Autogen 和后续衍生的 AG2。 CrewAI 提供多代理系统的开源框架。 LangChain 的 LangGraph 通过循环图优化代理行为。 Meta 的 Llama Stack 提供记忆、对话和道德约束。 技术进步:新技术如链式思维(Chain of Thought)、自我一致性(Self-consistency)和反思机制(Reflexion)推动了代理 AI 的发展。 现状:代理系统已成为主流,显著提高了 AI 的效率和个性化服务能力。 2. 价格下降 价格战:从 2023 年 3 月到 2024 年 11 月,OpenAI 的模型使用价格下降了近 90%。其他公司如 Google、Meta、亚马逊和中国企业也纷纷降价。 开源模型的影响:Meta 的 Llama 3 和 3.1 系列显著降低了高性能模型的价格门槛。 闭源模型竞争:OpenAI 推出更便宜的 GPT-4o 和 mini 版本,Google 降价 Gemini 系列,亚马逊推出 Nova 系列以低价竞争。 背后原因:开源模型和更高效的计算硬件(如 Cerebrus 和 SambaNova)推动了价格下降。 意义:价格下降反映了健康的技术生态,但高需求模型仍维持较高价格。 3....

January 6, 2025 · 5 min · fisherdaddy

2024 年我们从大语言模型 (Large Language Model, LLM) 中学到的 • Simon Willison

本文是 Django 联合创始人 Simon Willison 所写,他主要回顾了2024 年,大语言模型 (LLMs) 领域经历了显著的发展和变革,以下是主要的趋势与关键事件: GPT-4 壁垒被突破:多家机构开发的模型超越了 GPT-4 的性能,并推动了更长的上下文输入和多模态能力的发展。 LLM 成本大幅下降:由于竞争加剧和效率提升,运行和训练 LLM 的成本显著降低,同时对环境的影响也得到了部分缓解。 多模态 LLM 的崛起:支持图像、音频甚至视频输入的多模态模型变得普遍,语音和实时视频交互成为现实。 生成式 AI 应用的普及:基于提示生成应用程序的能力已经成为主流,许多模型支持即时创建和使用互动工具。 “代理人”尚未实现预期:尽管“代理人”概念被频繁提及,但由于模型的可信度和工具使用能力的限制,其实际应用仍未成熟。 评估的重要性提升:开发可靠的自动化评估工具成为构建 LLM 应用的关键技能。 环境影响的两面性:虽然单次推理的能耗降低,但数据中心的扩建对环境造成了更大压力。 知识分布不均:公众对 LLM 的认知与实际技术发展之间存在巨大差距,需要更多的教育和引导。 关键细节 GPT-4 壁垒的突破 性能超越:2024 年,18 个组织的模型在 Chatbot Arena 排行榜上超越了 GPT-4(如 Google 的 Gemini 1.5 Pro 和 Anthropic 的 Claude 3.5)。 上下文长度扩展:从 2023 年的 4,096 或 8,192 个 token 提升到 2024 年的 100,000+,Google 的 Gemini 系列甚至支持 200 万个 token。 多模态能力:Gemini 1....

January 6, 2025 · 10 min · fisherdaddy