AI 市场格局生变:2025 年调查揭示 Gemini、DeepSeek 崛起,企业 AI 应用加速

本文是 Artificial Analysis 发布的《2025 年上半年 AI 采纳度调查报告》的亮点摘要。该调查收集了超过 1000 名 AI 用户的反馈,旨在揭示 AI 采纳和使用的最新趋势。 主要观点 根据 2025 年上半年的调查数据,AI 技术的采纳正从实验阶段迈向实际生产应用,呈现出快速成熟的趋势。企业在 AI 应用上日益多元化,平均考虑或使用的语言模型数量显著增加。在模型选择上,Google Gemini、xAI Grok 和开源模型 DeepSeek 的市场关注度大幅提升,改变了原有的市场格局。企业对 AI 的部署策略各不相同,呈现出自主构建、直接购买或混合模式并存的局面。此外,调查显示,如果数据托管在中国境外,多数组织对采用中国 AI 模型持开放态度。 关键细节 AI 采纳与应用场景 采纳成熟度:AI 正在从原型阶段走向规模化应用,已有 45% 的组织在生产环境中使用 AI。 构建 vs. 购买策略:在 AI 应用的获取方式上,32% 的组织选择自主构建,27% 选择直接购买成品,25% 采用混合策略。 核心应用领域:工程与研发(Engineering & R&D)是 AI 应用的首选领域,被 66% 的组织采纳。其次是客户支持(Customer Support)和市场营销(Sales & Marketing)。 主要挑战:超过 50% 的组织认为,模型智能水平(Intelligence)、可靠性(reliability)和成本(costs)是使用 AI 时面临的最大挑战。 热门应用工具: AI 聊天应用:ChatGPT 依然最受欢迎,Gemini 和 Claude 紧随其后。 AI 编程工具:GitHub Copilot 和 Cursor 在市场上占据绝对主导地位。 语言模型 (LLM) 模型偏好:Google Gemini 和 OpenAI GPT/o 系列模型是开发者的首选,约 80% 的受访者正在使用或考虑使用。DeepSeek 成为最受欢迎的开源权重模型。 市场份额变化:与 2024 年相比,Google Gemini (+49%)、DeepSeek (+53%) 和 xAI Grok (+31%) 的市场关注度显著增长,而 Meta Llama (-6%) 和 Mistral (-15%) 有所下滑。 模型多样化趋势:企业考虑或使用的 LLM 家族平均数量从 2024 年的 2....

July 23, 2025 · 1 min · fisherdaddy

大型语言模型架构比较: 从 DeepSeek-V3 到 Kimi K2:现代大型语言模型架构设计 • Sebastian Raschka

本文深入分析了 2025 年主流开源大语言模型(LLM)的架构演进。作者指出,尽管这些新模型在宏观结构上与七年前的 GPT 架构相似,但在关键组件上进行了诸多重要改进。文章的核心目的在于剖析这些定义了当前旗舰模型的架构设计,而非关注基准测试性能或训练算法。 主要观点 文章的核心观点是,当前的大语言模型架构发展主要围绕着提升计算效率、增强模型容量和确保训练稳定性这三大主题进行。尽管没有颠覆性的结构变革,但通过对现有 Transformer 基础的精细打磨,研究者们实现了显著的性能与效率平衡。 混合专家模型(MoE)成为主流:为了在不显著增加推理成本的前提下大幅提升模型参数量(即模型容量),DeepSeek、Llama 4 和 Qwen3 等多个模型广泛采用了 Mixture-of-Experts (MoE) 稀疏架构。 注意力机制持续创新:为降低推理过程中的内存占用和计算量,各种高效的注意力机制被采用。Grouped-Query Attention (GQA) 已成为标准,DeepSeek 更是引入了 Multi-Head Latent Attention (MLA) 来压缩键值缓存(KV cache),而 Gemma 3 则通过 Sliding Window Attention 限制注意力范围以提升效率。 归一化策略的精细调整:为了提升训练过程的稳定性,模型开发者对归一化层(Normalization Layer)的位置和方式进行了新的探索。OLMo 2 采用了特定形式的 Post-Norm 布局,并引入 QK-Norm,Gemma 3 则同时使用 Pre-Norm 和 Post-Norm。 对位置编码的实验性探索:部分模型开始挑战传统的位置编码方案。例如,SmolLM3 实验性地采用了 No Positional Embeddings (NoPE),旨在改善模型对不同序列长度的泛化能力。 关键细节 以下是支持上述观点的具体模型架构细节: DeepSeek V3 / R1 Multi-Head Latent Attention (MLA):通过在存入 KV cache 前压缩键(key)和值(value)张量来节省内存,实验表明其性能优于 GQA 和 MHA。 Mixture-of-Experts (MoE):模型总参数量高达 6710 亿(671B),但推理时每个 token 仅激活 9 个专家(1 个共享专家 + 8 个路由选择的专家),活跃参数仅为 370 亿(37B)。共享专家的设计有助于学习通用模式,提升了模型性能。 Kimi 2...

July 23, 2025 · 4 min · fisherdaddy

扎克伯格摊牌了:百亿豪赌、个人超级智能与 AI 的终极形态

本文来自于 Meta CEO 马克·扎克伯格接受《The Information》杂志记者杰西卡·莱辛的采访视频,讨论了他对个人超级智能的愿景,以及这种愿景与当今世界对 AI 的理解有何不同。 采访还涵盖了扎克伯格部署资本的策略,以及他为何要将服务器安置在帐篷内。 扎克伯格摊牌了:我们的目标是“个人超级智能”,而且要不惜一切代价 最近,马克·扎克伯格似乎按下了AI军备竞赛的“狂暴”按钮。从疯狂招募顶尖AI人才、豪掷重金入股Scale AI,到宣布建造堪称巨无霸的超级计算机集群,Meta的一系列动作都在清晰地传递一个信号:他们要“All in” AI,而且是以前所未有的规模。 在与 The Information 的一次深度对话中,扎克伯格首次系统地阐述了Meta在这场AI终局之战中的独特愿景和激进打法。他不再满足于追赶,而是要定义一个全新的赛道——个人超级智能 (Personal Super Intelligence)。 不只是造工具,而是要给每个人一个“超强大脑” 当下的AI竞赛中,无论是OpenAI还是Google,大家似乎都更关注如何用AI解决“宏大问题”,比如自动化经济生产、赋能企业。但扎克伯格的思路显然不太一样。 他认为,AI就像早期的互联网,它的价值绝不限于生产力。人们生活中真正关心的,更多是人际关系、文化、创造力、娱乐和享受生活。这就是Meta想要聚焦的地方。 “我们的使命,是把个人超级智能带给世界上的每一个人,”扎克伯格说,“我们想把这种力量直接交到每个人的手中。” 这与竞争对手们想打造一个“中央超级智能”来解决宏大问题的思路形成了鲜明对比。扎克伯格描绘的未来是: AI是你的个人伙伴:它关心你生活中的琐事,而不仅仅是宏大的社会议题。 AI提升你的个人生活:它帮你维系人际关系,激发你的创造力,让生活更有趣。 AI增强你的认知能力:未来,不戴AI眼镜,可能就像近视眼不戴眼镜一样,处于一种“认知劣势”。 他举了一个生动的例子:我们每次和别人聊天,脑子里可能会闪过五件想后续跟进的事,但最后因为忙碌,能做一件就不错了。而在未来,你的AI眼镜会帮你记住这一切,甚至主动帮你跟进处理。 这种“个人化”的愿景,可以说是Meta这家以社交和连接起家的公司,在基因里就写好的。 弹药充足:用“钞能力”和极致算力吸引顶尖人才 要实现如此宏大的愿景,需要两样东西:顶级的人才和海量的算力。扎克伯格对此毫不含糊。 1. 人才争夺战:钱很重要,但不是全部 面对外界报道的数百万甚至上亿美元的“天价”薪酬包,扎克伯格虽然承认市场竞争激烈,但他透露了顶尖研究员们更看重的东西。 他说,现在招募这些顶级人才,他们想要的不再是管理多少人的“大团队”,而是恰恰相反——“最少的人,最多的GPU”。 这些天才希望在一个小而精悍的团队里,每个人都能将整个项目装进自己的脑袋,同时拥有几乎无限的计算资源来验证自己的疯狂想法。而这,正是Meta能够提供的核心吸引力。 “如果你要投入几千亿美元来构建计算集群,那么花点钱、不惜一切代价去争取那五六十个最顶尖的研究员,是完全说得通的。” 扎克伯格的逻辑很清晰:与庞大的硬件投入相比,人才招聘的成本反而是“小钱”。 2. 算力军备:不设上限的投入 当被问及资本支出(Capex)是否有上限时,扎克伯格的回答简单而霸气:“我们会看技术进展和结果再说。” 他认为,将资本转化为更优质的服务,是一种核心的竞争优势。Meta强大的业务模式能持续产生巨额现金流,这让他们有底气进行这种“可能长达数年,耗资数千亿”的投入,而许多竞争对手则需要为此不断融资。 为了在这场竞赛中跑得更快,Meta甚至颠覆了传统数据中心的建设方式。他们开创性地使用**“防飓风帐篷”**来快速搭建GPU集群,而不是等待耗时数年的钢筋混凝土建筑完工。 目前,Meta正在建设两个以希腊泰坦神命名的“泰坦”级数据中心——普罗米修斯(Prometheus)和许珀里翁(Hyperion)。其中,许珀里翁最终将扩展到惊人的5千兆瓦(5 GW),其占地面积甚至堪比一大部分曼哈顿。 扎克伯格的目标很明确:打造全球最庞大的计算集群,并实现“人均算力”的遥遥领先。 AI的终极形态:透过你的眼睛看世界 那么,这个“个人超级智能”最终会以什么形态出现呢?扎克伯格的答案,与他多年前就下注的另一项技术紧密相连——智能眼镜。 他坚信,智能眼镜是AI的最佳载体,因为: 它能看到你所见,听到你所闻,真正理解你所处的环境和上下文。 它能与你全天候对话,成为一个无缝的交互入口。 未来,它能直接在你眼前生成全息影像和交互界面,提供即时信息和帮助。 这让Meta在Reality Labs上的长期巨额投资,与当下的AI战略完美地串联起来,形成了一个从硬件到软件再到服务的闭环。 一场严肃的豪赌 在采访后的讨论中,记者Jessica Lessin敏锐地捕捉到了扎克伯格的变化。他当天穿着一件有领子的衬衫,虽然看似随意,但在熟悉他的人看来,这是一种“严肃”的信号——就像他曾在Facebook面临严峻挑战时,坚持每天打领带上班一样。 这次,扎克伯格是认真的。他不再是被动应对,而是主动出击,试图为Meta,也为整个科技行业,划定下一代计算平台的战场。 当然,一个巨大的问题仍然悬而未决:当“个人超级智能”真的实现时,它的商业模式是什么?如何为这项耗资千亿的服务买单? 这或许是这场“AI热夏”中最激动人心,也最充满未知的问题。但可以肯定的是,扎克伯格已经摆好棋局,押上重注。这不仅关乎Meta的未来,也可能从根本上改变我们每个人与技术互动的方式。我们都在拭目以待。

July 23, 2025 · 1 min · fisherdaddy

前谷歌 CEO 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好

本文来自于是谷歌前首席执行官、Relativity Space 执行主席兼首席执行官 埃里克·施密特在 2025 年巴黎 RAISE 峰会上的炉边谈话。访谈中施密特谈论的内容从 AGI 的时间表到硅谷地缘政治,从递归自我改进到万亿美元的资本支出竞赛等。 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好 当埃里克·施密特(Eric Schmidt)——这位前谷歌CEO,科技界的重量级人物——登台时,他带来的不是又一个关于AI如何提升效率的商业演讲。他带来的是一个更宏大、也更令人不安的宣告:我们正站在一个全新纪元的门槛上,其深刻程度堪比“启蒙运动”,而绝大多数人,尤其是各国领导者,对此毫无准备。 这个观点并非一时兴起。施密特与已故的外交巨擘亨利·基辛格(Henry Kissinger)合著了《AI世纪》(The Age of AI)一书,书中早已埋下伏笔。基辛格曾将我们现在所经历的,与人类从信仰神明转向运用理性的“启蒙运动”相提并论。而现在,我们迎来的,是一种全新的、非人类的智能。 施密特认为,人们对AI最大的误解,就是还停留在两年前ChatGPT刚问世时的印象里。他直言不讳地对各国政府说:“第一,这玩意儿已经不是那个ChatGPT了,一切都变了。第二,你们根本没准备好。第三,你们最好赶紧围绕它组织起来,无论是好的方面,还是坏的方面。” “旧金山共识”:三年内,世界将天翻地覆 施密特最近提出了一个新词——“旧金山共识”(The San Francisco Consensus)。这听起来像个圈内黑话,但背后却是硅谷核心圈子里一群人的共同信念。 这个共识的核心观点是:在未来两到四年内(平均说法是三年),整个世界将被彻底改变。 听起来有点夸张?让我们看看这个论证是如何展开的: 第一步:智能体革命(The Agentic Revolution) 我们已经有了大型语言模型(LLM),比如ChatGPT。但真正的变革在于,当这些模型被赋予记忆和推理能力时,它们就变成了“智能体”(Agents)。 施密特用一个生动的例子解释了这一点:假设你想在加州建一栋新房子。你可以部署一系列智能体: 智能体A:负责寻找合适的地皮。 智能体B:研究当地所有的建筑法规。 智能体C:设计建筑蓝图。 智能体D:挑选并雇佣承包商。 (施密特开玩笑说)智能体E:如果房子建砸了,负责起诉承包商。 这个看似简单的流程,其实可以套用到任何商业、政府乃至个人活动中。这就是“智能体革命”,它将重塑我们作为人类的工作方式。 第二步:推理革命(The Reasoning Revolution) 这才是更令人震撼的部分。最新的AI模型(如GPT-4o)已经展示出惊人的推理能力,你甚至可以看它在解决一个复杂问题时来回思考、自我纠正。谷歌的一个数学模型,其解题能力已经达到了数学专业研究生的前10%水平。 可以毫不夸张地说,我们现在的AI系统,在许多高等学科(数学、物理等)上的能力,已经能媲美90%的人类顶尖学者。 从 AGI 到超级智能:我们离“魔法”还有多远? 当“智能体革命”和“推理革命”结合,并引入一个关键概念——递归式自我完善(Recursive Self-Improvement)时,一切就变得不可预测了。 这指的是系统开始自我学习、自我改进,其进步速度会以一种我们人类无法理解的组合方式爆炸式增长。 这引出了两个关键的未来阶段: 通用人工智能 (AGI):这是指AI拥有了像人一样的“自由意志”和通用智能。它早上“醒来”,可以自己决定去学什么、探索什么。施密特个人预测,这将在未来四到六年内实现。 超级智能 (Superintelligence):这是指AI的智能超越了所有人类智慧的总和。如何判断我们是否达到了这个阶段?施密特给出了一个绝妙的测试标准:当AI能够证明一个我们已知为真、但任何人类(哪怕是全人类加起来)都无法理解其证明过程的命题时,超级智能就到来了。 基辛格曾问过一个深刻的问题:那是什么?是魔法吗?当人们亲眼目睹这种自己无法理解的力量时,很可能会因为恐惧而拿起武器反对它。施密特认为,这一天在十年内就可能到来。 这也带来了严峻的国家安全问题。想象一下,如果一个国家拥有了一百万个不知疲倦、不吃不喝、24小时工作的AI研究员,它的创新速度将呈指数级增长。这会让它的对手感到,一旦落后,就再也无法追赶,从而可能引发先发制人的冲突。 算力即战略:一场全球性的 AI 权力游戏 要实现这一切,背后需要的是天文数字般的算力投入和资本支出(Capex)。很多人觉得这像一场泡沫,行业高管们嘴上也说着“我们在过度建设”,但私下里都认为“倒霉的会是别人,我的投资没问题”。 施密特认为这可能不是泡沫。他引用了一句硅谷的老话:“格鲁夫给予的,盖茨会带走。”(Grove giveth and Gates taketh away),意思是硬件(英特尔的安迪·格鲁夫)性能的提升,总会被软件(微软的比尔·盖茨)无尽的新功能所消耗掉。历史上,硬件的容量从未被浪费过。 这场算力竞赛,也正在重塑全球的AI权力格局。 美国模式:资本雄厚,公司倾向于建立庞大的数据中心,提供功能强大的闭源服务。 中国模式:恰恰相反,在Deepseek等项目的引领下,中国正大力发展开源、开放权重的模型,背后很可能有政府资金的支持。 这会带来一个非常有趣的局面:未来,西方国家可能拥有最先进的AI模型,但世界上大多数国家和用户使用的,却可能是来自中国的开源模型。这其中蕴含的地缘政治风险,我们才刚刚开始思考。 唯一会让你失败的,是行动太慢 回顾过去,施密特坦言,他在谷歌领导安卓系统应对移动互联网浪潮时,犯下的每一个错误,归根结底都是时间的错误。...

July 23, 2025 · 1 min · fisherdaddy

OpenAI ChatGPT Agent 团队访谈

本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。 深入 OpenAI 全新超级智能体:一场与创作者的对话 想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。 我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。 “天作之合”:一切的起点 故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。 Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。 Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。 “我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。 团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。 同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。 不只是 1+1=2:超级智能体的全能工具箱 简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。...

July 23, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。 关键细节 核心功能与工作方式 任务执行能力: 用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和 API 访问权限,使其能够智能地选择最高效的方式来完成任务。 协同工作流程: ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。 性能与基准测试 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,ChatGPT agent 的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 具体数据: 在 Humanity’s Last Exam(专家级问题测试)中,得分达到 41.6%。 在 DSBench(数据科学任务)上,准确率达到 89.9%,显著超越人类表现。 在 BrowseComp(网络浏览信息定位)中,准确率达到 68.9%,比 deep research 高出 17.4 个百分点。 风险与安全措施 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(prompt injection)攻击。 多层安全防护: 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。 主动监督: 发送邮件等关键任务需要用户在“观察模式”(Watch Mode)下进行监督。 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。 可用性与当前限制 推出范围: 该功能已开始向 Pro、Plus 和 Team 用户推出,Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。 功能局限: ChatGPT agent 仍处于早期阶段,有时可能会出错。 幻灯片生成功能尚处于 beta 测试阶段,生成的内容在格式和美观度上可能较为基础。 原文:推出 ChatGPT 智能体:连接研究与行动 ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。...

July 22, 2025 · 3 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源模型:Qwen3-235B-A22B-Instruct-2507

Qwen团队开源 Qwen3 系列模型的最新更新版本 Qwen3-235B-A22B-Instruct-2507。这是一个在非思考模式(non-thinking mode)下运行的大型语言模型,相较于前一版本,在多个核心能力上均有显著提升。 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代,官方也给出了原文是“我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量”。意思就是混合思考模型虽然可以既有instruct 模型的快思考,也有 Thinking 模型的深度思考,但无法达到垂类模型的最佳质量。 Qwen3-235B-A22B-Instruct-2507 模型的核心升级在于全面提升了其综合能力和用户对齐度。主要体现在以下几个方面: 通用能力增强:在指令遵循、逻辑推理、文本理解、数学、科学、代码生成和工具使用等基础能力上取得了显著进步。 知识覆盖更广:大幅提升了在多种语言下的长尾知识覆盖范围。 用户对齐更优:在主观性和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力提升:增强了对 256K 超长上下文的理解能力。 模型规格 模型架构:该模型是一个拥有 235B 总参数和 22B 激活参数的因果语言模型(Causal Language Model),采用了专家混合(MoE)架构,包含 128 个专家,每次激活 8 个。 模型层数:共 94 层。 上下文长度:原生支持 262,144 (256K) tokens 的超长上下文。 运行模式:此模型仅支持非思考模式,输出中不会生成 <think></think> 标签。 性能表现 基准测试:在多个行业标准基准测试中,Qwen3-235B-A22B-Instruct-2507 的表现优于其前代模型,并在多个领域与 GPT-4o、Claude Opus 等顶级模型相当或更优。 突出领域:在推理能力测试(如 AIME25 得分 70.3,ZebraLogic 得分 95.0)和部分知识问答测试(如 CSimpleQA 得分 84.3)中表现尤为出色,显著超越了竞争对手。 使用与部署 快速上手:可通过最新版的 Hugging Face transformers 库轻松调用模型。 服务部署:推荐使用 sglang 或 vllm 等框架进行服务化部署,以获得最佳性能。 本地运行:支持 Ollama、LMStudio、llama....

July 22, 2025 · 1 min · fisherdaddy

AI 代理的上下文工程:构建 Manus 的经验教训 • Peak

本文是 Manus 首席科学家 季逸超 ‘Peak’ 在 2025 年 7 月 19 日发表的博客,主要介绍了 Manus 在构建 AI 代理过程中的一些经验教训,深入探讨了“上下文工程”的核心理念与方法。作者认为,对于现代 AI 代理而言,精心设计和管理上下文,比微调模型本身更为关键,它直接决定了代理的性能、成本和可扩展性。 主要观点 上下文工程优于模型微调:在产品快速迭代的背景下,依赖前沿大语言模型的上下文学习能力,通过“上下文工程”来构建 AI 代理,比耗时数周的模型微调更具优势。这使得产品能快速迭代,并与底层模型的进步保持同步。 上下文是代理行为的核心:代理的效率(速度和成本)、鲁棒性(错误恢复能力)和扩展性,最终都取决于上下文的构建方式。如何塑造记忆、环境和反馈,是决定代理智能水平的关键。 构建过程是实验科学:不存在一劳永逸的完美框架。构建高效的代理需要通过不断的实验、试错和迭代(作者称之为“随机研究生下降”),逐步找到最优的上下文管理策略。 关键细节 1. 围绕 KV 缓存进行设计 核心指标:KV-cache 命中率是影响代理延迟和成本的最重要指标。由于代理任务中输入与输出的 token 比例极高(Manus 中约为 100:1),有效利用缓存能带来巨大收益(成本可降低 10 倍)。 实践方法: 保持提示前缀稳定:避免在系统提示的开头加入时间戳等易变内容。 上下文只追加:避免修改历史记录,并确保 JSON 等格式的序列化顺序是确定的。 明确标记缓存断点:在必要时手动插入缓存标记,以优化缓存策略。 2. 工具管理:遮蔽而非移除 问题:在迭代过程中动态增删工具定义,会使 KV-cache 失效,并可能让模型对不再存在的工具感到困惑。 解决方案:使用“遮蔽”策略。通过上下文感知的状态机,在解码时约束模型的输出(logits),阻止或强制其选择特定工具,而不是从上下文中移除工具定义。例如,通过预填充回复来强制模型调用某个或某类工具。 3. 将文件系统作为外部上下文 挑战:即使有 128K 的上下文窗口,在处理网页、文档等大型观测数据时,也容易超出限制、导致性能下降且成本高昂。 解决方案:将文件系统视为一种无限大、可持久化的“终极上下文”。训练代理按需读写文件,将长期记忆和大型数据外部化存储。这种压缩是可恢复的(例如,保留 URL 而非网页全文),既能缩短上下文长度,又不会永久丢失信息。 4. 通过复述操控注意力 问题:在执行包含数十个步骤的复杂任务时,代理容易偏离最初目标(即“迷失在中间”问题)。 解决方案:通过刻意操控注意力来解决。Manus 会创建一个 todo.md 文件,并在任务过程中不断更新它。这种“复述”行为将全局计划推到上下文的末尾,使其处于模型近期注意力的焦点,从而保持任务目标的一致性。 5. 保留错误以促进学习 错误观念:许多开发者倾向于隐藏或擦除代理犯下的错误。 正确做法:将失败的尝试、错误信息和堆栈跟踪保留在上下文中。这为模型提供了宝贵的学习证据,使其能够隐式地更新内部认知,从而避免重复犯错。错误恢复是衡量真正代理能力的关键指标。 6. 避免少样本提示的陷阱 风险:如果上下文中充满了相似的成功案例(少样本示例),模型会倾向于模仿这些模式,即使当前情况已不适用,导致行为僵化或出错。 解决方案:在上下文中引入受控的多样性。通过在行动和观察的序列化模板、措辞或格式上引入微小变化,打破单一模式,帮助模型更好地泛化和适应。 原文: AI代理的上下文工程:构建Manus的经验教训 2025/7/18 – Yichao ‘Peak’ Ji...

July 21, 2025 · 1 min · fisherdaddy

Meta 超级智能团队全解析:44 位 AI 精英背景、专长与成就

为了实现 Meta 的“超级智能”项目,扎克伯格亲自上阵,忙了几个月,终于凑齐了 Meta Superintelligence Labs(MSL)。其中的每个人都是精英中的精英,年薪从千万到上亿美元不等,大部分人来自于 OpenAI(40%) 和 Google DeepMind(20%),中国人占比 50%。上周末社交平台上曝光了 MSL 团队 44 人的详细名单,我用 OpenAI DeepResearch 对其中的每个人进行了深度调研,以下是团队中每个人的基本背景、目前在 Meta 的职位,以及个人成就亮点。 纳特·弗里德曼(Nat Friedman,美国) 纳特·弗里德曼是 Meta 超级智能团队的联合负责人,现任 Meta 超级智能部门副总裁,负责推进 AI 产品和应用研究。他加入 Meta 刚满 18 天,但在技术行业拥有约 20+ 年的丰富经验(他早在1999年就创办了开发者平台公司 Ximian)。在当前职位之前,弗里德曼曾联合创立风险投资公司 NFDG,并担任 GitHub 首席执行官。他在开发者工具和开源生态领域造诣颇深,善于将前沿技术产品化。学术方面,他获得了麻省理工学院计算机科学学士学位。弗里德曼以敏锐的产品洞察力和丰富的创业经验,带领团队将研究成果转化为实际产品。 丹尼尔·格罗斯(Daniel Gross,以色列) 丹尼尔·格罗斯是团队的产品方向领导,加入 Meta 仅 18 天,拥有约 15 年的从业经验,现任 Meta 超级智能部门产品负责人。在此之前,他是 AI 创业公司 Safe Superintelligence 的联合创始人兼 CEO,并与弗里德曼共同创立了投资机构 NFDG。格罗斯年少成名,18 岁即进入创业孵化器 Y Combinator,此后一直专注于人工智能产品的创业和投资,对 AI 产品设计与用户需求有深刻理解。他没有传统的高等学历背景(年轻时即投身创业),但其作为创业者和投资人的经历使他成为引领 Meta AI 产品战略的理想人选。 扬·勒坤(Yann LeCun,法国) 扬·勒坤是深度学习领域的开拓者,现任 Meta 首席 AI 科学家兼副总裁,在 Meta 工作已逾 10 年(自 2013 年起领导 Facebook AI Research)。他在学术和工业界拥有超过 35 年的资深经验,是卷积神经网络和深度学习革命的奠基人之一。当前他在 Meta 超级智能团队中负责总体科研方向,把关最前沿的 AI 技术研发。同时,勒坤也是纽约大学的教授,长期从事机器学习研究培养人才【75†】。他的专长涵盖计算机视觉、深度学习和强化学习等领域,曾荣获图灵奖等诸多荣誉。学术方面,勒坤在巴黎皮埃尔和玛丽·居里大学获得计算机科学博士学位。他的加盟为团队带来了顶尖的科研洞见和经验。...

July 21, 2025 · 5 min · fisherdaddy

写作就是思考

本文的核心论点是 “写作即思考”。作者强调,科学写作不仅是发表研究成果的工具,更是一个至关重要的认知过程。它迫使研究者以结构化、有条理的方式整理思绪、提炼核心信息,并将多年的研究数据转化为一个有说服力的故事。因此,作者呼吁,尽管 LLMs 提供了便利,但科学界应继续重视由人类主导的写作过程,因为完全外包写作会剥夺研究者深入思考和创造性塑造其工作的宝贵机会。 关键细节 写作的认知价值 结构化思维: 写作能将大脑中混乱、非线性的思绪,转化为结构化、有逻辑的文字,从而帮助研究者理清思路,发现新的见解。 提炼核心信息: 通过写作,研究者可以将数年的研究、数据和分析整理成一个完整的故事,从而明确其工作的核心信息和影响力。 科学依据: 研究表明,书写行为(如手写)能促进大脑的广泛连接,并对学习和记忆产生积极影响。 LLMs 在写作中的局限与风险 缺乏责任主体: LLMs 无法为内容负责,因此不能被视为作者。完全由 LLM 生成的稿件不应被发表。 “幻觉” 风险: LLMs 可能会产生被称为 幻觉 的错误信息,甚至编造参考文献,因此其生成的内容必须经过人类的严格核查。 效率问题: 编辑和修正 LLM 生成的文本可能比从头开始写作更耗时,因为理解和修改其内在逻辑非常困难。 思想的替代: 如果文章完全由 LLM 撰写,读者读到的将是模型的“思考”,而非研究者本人的思想。 LLMs 作为辅助工具的潜力 提升语言质量: LLMs 可以帮助改善文章的可读性和语法,对非英语母语的研究者尤其有帮助。 辅助研究工作: 它们可用于搜索和总结大量科学文献。 激发创意: LLMs 可以提供要点、协助头脑风暴、克服写作障碍,甚至通过连接看似无关的主题来激发新想法。 原文 在大语言模型时代,论人类科学写作的价值。 撰写科学论文是科学研究方法不可或缺的一部分,也是交流研究成果的常规实践。然而,写作不仅仅是报告结果,它也提供了一种发掘新思想和新观点的工具。写作迫使我们以一种结构化、有目的的方式进行思考,而不是任由思绪天马行空、非线性地游荡。通过动笔写作,我们可以将多年的研究、数据和分析整理成一个完整的故事,从而明确我们工作的核心信息及其影响。这不仅仅是一种哲学观察,它有科学证据的支持。例如,手写可以促进大脑广泛的连接性1,并对学习和记忆产生积极影响。 此文旨在呼吁大家继续认识到人类撰写科学论文的重要性。 “此文旨在呼吁大家继续认识到人类撰写科学论文的重要性” 在大语言模型(LLM)时代,这一呼吁似乎有些不合时宜。只要有合适的提示,LLM就能在几分钟内生成完整的科学论文2(以及同行评审报告3),这似乎在研究工作完成后为成果发布节省了时间和精力。然而,由于LLM缺乏责任主体,它们不被视为作者。因此,我们不会考虑发表完全由LLM撰写的稿件(允许使用LLM进行文案编辑,但必须声明)。更重要的是,如果写作即思考,那么我们读到的难道不是LLM的‘思想’,而不是论文背后研究人员的思想吗? 目前的LLM也可能会出错,这种现象被称为“幻觉”4。因此,LLM生成的文本需要经过彻底的检查和验证(包括每一条参考文献,因为它可能是编造的5)。所以,目前的LLM究竟能节省多少时间仍是未知数。编辑一篇LLM生成的文本,可能比从零开始撰写一篇论文或同行评审报告更加困难和耗时,部分原因在于,你需要理解其背后的逻辑才能进行编辑。其中一些问题可能会通过仅在科学数据库上训练的LLM来解决,例如本期中刘凤麟(Fenglin Liu)及其团队的一篇综述文章所概述的那样。时间会证明一切。 这并不是说LLM不能成为科学写作中的宝贵工具。例如,LLM可以帮助提高文本的可读性和语法,这对于非英语母语者尤其有用。LLM在搜索和总结多样化的科学文献方面也可能很有价值6,它们可以提供要点,辅助进行头脑风暴。此外,LLM还有助于克服写作障碍,为研究发现提供替代性解释,或识别看似不相关的学科之间的联系,从而激发新想法。 尽管如此,将整个写作过程外包给LLM,可能会剥夺我们反思自己领域的机会,也让我们无法参与到将研究成果塑造成引人入胜的叙述这一创造性且至关重要的任务中——这项技能的重要性无疑超越了学术写作和出版本身。

July 21, 2025 · 1 min · fisherdaddy