Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

1. 精心翻译的优质博客内容
1. 前沿技术分享
1. 认知分享

📚 博客内容：

1. 翻译：精选国外优质博客文章，涵盖编程、人工智能、产品、运营等多个领域。
1. 分享：探索各种前沿技术，从编程语言到软件开发，从云计算到人工智能。
1. 认知：结合自身经验和思考，分享对科技、生活、学习等方面的独到见解。

马斯克达沃斯访谈实录：AI 算力上天、2030年超越人类与火星移民计划

本文整理自 Elon Musk 在瑞士达沃斯举行的 2026 年世界经济论坛上的分享：Elon Musk 对话贝莱德 CEO Larry Fink。这个会议中，马斯克讨论了人工智能的未来及其全球影响、太空探索、 SpaceX 任务和登月计划、Tesla 的创新和可持续能源解决方案、全球技术趋势、创业和创新等等。如果你关注科技，关注 AI 的未来，这个视频非常值得一看，本文是其内容的精华总结，由我和 Gemini 3 Pro 共同整理完成。假如外星人真的不存在？马斯克经常被问到一个问题：“到底有没有外星人？你是不是外星人？” 他的回答总是透着一种理工男的幽默：“如果有外星人，我肯定是第一个知道的。SpaceX 有 6000 多颗卫星在天上飞，我们从来没为了躲避外星飞船变过轨。” 但这背后藏着一个让他夜不能寐的假设：如果在浩瀚宇宙中，我们真的是唯一的生命呢？马斯克把人类意识比作“无尽黑暗中一只微弱的烛火”。这烛火太脆弱了，如果地球发生什么天灾人祸，光就灭了。这就是为什么必须让生命多行星化。SpaceX 的终极目标不是去旅行，而是为了在这个充满不确定性的宇宙里，给人类文明做一个“异地备份”。机器人数量将超过人类，我们将迎来“极致富足” 谈到地球上的事，马斯克对 AI 和机器人的未来极其乐观（当然要注意《终结者》那种风险）。他抛出了一个简单的经济学公式：经济产出 = 人均生产力 × 人数。当人形机器人（比如特斯拉的 Optimus）普及后，这个公式里的限制因素就没有了。马斯克预测，未来机器人的数量会超过人类。到时候，我们将进入通过 AI 和机器人实现的“无限富足”时代。什么是无限富足？就是商品和服务的成本几乎归零。那时候大家甚至想不出还有什么需求是没被满足的。虽然这会带来“人类还需要做什么”的存在主义危机，但相比于贫穷，这显然是个幸福的烦恼。至于时间表？特斯拉工厂里已经有一些简单的机器人在干活了。到明年（2025年）年底，这种高可靠性的人形机器人可能就会开始向公众发售。你会想要一个机器人帮你照顾老人、看孩子、遛狗，这很快就不再是科幻情节。最大的瓶颈：缺电，缺很多电 AI 模型和机器人是美好的，但它们吃什么？吃算力。算力吃什么？吃电。目前芯片产能是指数级增长的，但变压器和电网的扩容速度每年只有可怜的个位数。马斯克直言：“缺电将是扼住 AI 喉咙的最大危机。” 如果你把太阳系的所有质量——包括那个占了 0.1% 质量的木星——都扔进核聚变反应堆烧掉，产生的能量跟太阳比起来，还是约为零。太阳占据了太阳系 99.8% 的质量，提供了几乎 100% 的能量。所以答案很简单：光伏+储能。马斯克算了一笔账：只需要在这个地球上划出一个 100 英里 × 100 英里（约 160 公里见方）的小角落，铺满太阳能板，产生的电力就足够整个美国使用。这在地图上也就是犹他州或内华达州的一个不起眼的小角。为什么没做到？虽然中国在疯狂铺设光伏（确实令人印象深刻），但美国受限于极高的关税壁垒，导致光伏成本居高不下。不过 SpaceX 和特斯拉不打算等，他们正在自建每年 100 吉瓦的产能。...

Clawdbot 创造者 Peter Steinberger 的最新访谈

本文整理自最近爆火的 Clawdbot 的创造者 Peter Steinberger 在 TBPN 的一场访谈。因为其名字取的时候谐音了 Claude 的原由被 Anthropic 强制要求更换名称（商标问题），现已更名为 Moltbot。以下内容由我和 Gemini 3 Pro 共同整理而成。退休大佬复出“搞事情”：我只是想在 WhatsApp 上跟我的电脑聊天，结果引爆了 GitHub 如果在过去的一周里，你看到了一张 GitHub Star 数像火箭一样垂直升空的图表（现在已经接近 90K stars），那主角多半就是 Peter Steinberger 的项目。这个故事最离谱的地方在于：这是一个已经财富自由、退隐江湖的大佬，纯粹为了“找乐子”写出来的东西。没有虽然、但是，也没有商业计划书，只有纯粹的极客精神和无数个凌晨三点的代码狂欢。并不是所有复出都是为了钱 Peter 曾在自己的软件公司拼了 13 年，四年前他把公司卖了。用他自己的玩笑话（实际上是引用）说，那是为了去享受“二十一点和花天酒地”。但实际上，那是彻底的职业倦怠。那之后，他过了三年甚至都不想碰代码的生活，感觉像是被《王牌大贱谍》里的反派吸走了“精气神（Mojo）”。直到 2023 年 4 月，那股火苗又回来了。他不想再搞老本行 iOS 开发，而是要把目光投向当时还处于起步阶段的 AI。最初的体验并不完美，直到 Anthropic 的 Cloud Code 测试版发布，那种久违的“上瘾”感甚至让他兴奋到失眠。他甚至在凌晨 4 点给朋友发消息安利，组建了一个叫“Cloud Code 匿名戒瘾会”（后来顺应潮流改名叫“Agents Anonymous”）的聚会。他的宣言很简单：“我结束退休生涯，就是为了回来跟 AI 捣乱的。” “摩洛哥惊魂”：当 AI 学会自己修补 Bug 这个爆火项目的起因非常随意。去年 11 月，Peter 只是想：“既然我在厨房的时候电脑不在身边，为什么我不能在 WhatsApp 上跟我的电脑聊天呢？” 于是他花了一个小时“黑”出了一个原型：WhatsApp 收到消息 -> 发送给 AI -> AI 执行代码 -> 返回结果。...

Sam Altman 最新深度交流：软件开发的终局、GPT-6 的剧透与给开发者的建议

本文整理自 OpenAI CEO Sam Altman 今早面向开发者举办的一场交流会的在线直播。以下为本场直播的精华内容，由我和 Gemini 3 Pro 共同整理而成。软件工程师的未来：不是消亡，而是爆发很多人担心 AI 会让程序员失业，Sam 引用了**杰文斯悖论（Jevons paradox）**来反驳这个观点：当某种资源（这里是代码）的生产效率极速提高、成本极速降低时，需求反而会呈指数级增长。未来的软件工程师是什么样的？Sam 认为，“写代码”本身将不再是工作的核心。未来的工程师不需要把大量时间花在敲击键盘或调试 Bug 上。相反，工程师的定义将通过以下方式被重塑：价值捕捉者：利用计算机完成自己想要的任务，或者通过计算机为他人创造有用的体验。宏观调控者：你会看到更多人能独自完成以前需要整个团队才能做到的事。 Sam 预测，世界对软件的需求丝毫没有减弱。未来，我们使用的软件将不再是千人一面的通用版本，而是**“为你一人定制”**的。你会习惯于软件根据你的使用习惯不断自我微调，甚至在此时此刻为你即时生成一个小程序来解决当下的问题。这将创造出比现在大得多的 GDP 总量。给创业者的冷水：构建变得容易，但卖出去更难了对于开发者来说，技术门槛的降低是一把双刃剑。 Sam 分享了他以前在 Y Combinator 的观察：曾经，创始人们认为“做产品”是最难的；现在，随着 Cursor、Codex 等工具的普及，构建产品变得极其容易，真正的瓶颈变成了 GTM（Go-To-Market，推向市场）。即使在那个“极大丰富”的 AI 未来，人类的注意力仍然是稀缺资源。 Sam 给出的建议很务实：即便 AI 可以自动化销售和营销，你依然要面对激烈的竞争。不要指望技术红利能自动解决获客问题，生意的本质逻辑（提供差异化价值、建立网络效应）没有变。终极测试：问问你自己，如果 GPT-6 发布了，且性能惊人地强，你的初创公司会感到开心还是难过？你应该去做那些极度渴望模型变得更强的业务，而不是做那些“修补模型缺陷”的套壳生意，后者会极其痛苦。关于 GPT-6 与未来的模型：我们要修好“偏科” 坦白说，Sam 承认目前的模型有点“偏科”。例如 GPT-5 在某些方面很强，但在写作风格上可能还不如以前的版本讨喜。对于未来的模型演进（以 GPT-6 为代表的下一代），OpenAI 的目标非常明确：全能型选手：未来的模型将在推理、编程、写作等所有维度上同时变强。智能是可互换的，一个能进行复杂科学推理的模型，理应也能写出清晰甚至有见地的文章。速度与成本：Sam 做了一个大胆的预测——不管是到 2027 年还是更早，高端智能的成本至少会降低 100 倍。同时，OpenAI 正在努力平衡“推理深度”和“响应速度”，让复杂的输出能在 1/100 的时间内完成。学习能力：你不必担心今天基于旧框架构建的应用会被淘汰。未来的模型将具备“看一眼就会”的能力——给它展示一个新的环境或工具，它就能像最聪明的人类一样迅速掌握并可靠地使用。 AI Agent（智能体）的形态：不仅仅是聊天关于 Agent，至今没有一个标准答案。Sam 认为未来会有两种极端的用户画像：...

10 个适合初学者的 Claude Code 构建创意（附完整提示词）

本文翻译自 X 博主 Zara Zhang 发布的文章：10 beginner-friendly ideas to build with Claude Code (Prompts included)。只要你会打字，就能用 Claude Code 进行构建。 1. 将你的简历变成个人网站这里有 10 个让你入门的想法。无需任何技术背景。我已附上了你可以直接使用的具体提示词。把你的简历投喂给 Claude Code，让它为你构建一个精美的作品集网站。想要特定的外观？先在网上找一些视觉参考，然后让它匹配那种风格。 “这是我的简历 [附上文件]。请为我构建一个干净、现代的个人网站，展示我的经验和项目。我喜欢这个 [参考链接] 的视觉风格。试着匹配这种美学。我完全没有编程经验，所以请一步步指导我。” （要附加文件，只需将其拖入与 Claude Code 的聊天窗口即可。） 2. 构建一个用于语言学习的浏览器扩展程序创建一个扩展程序，让你可以在外语网站上高亮文本，根据上下文获取 AI 驱动的释义，并将单词保存到你自己的词汇表中。 “为我构建一个语言学习用的浏览器扩展。当我在任何网页上高亮文本时，它应该根据周围的上下文显示 AI 生成的解释，并让我把单词保存到个人词汇表中。我不懂代码。请给我简单、按部就班的说明，告诉我所有需要做的事情。” 3. 基于你的健康数据创建一个习惯追踪器上传你的体检报告，让 Claude Code 根据结果为你构建一个个性化的习惯追踪和打卡应用。 “这是我最近的体检报告 [附上文件]。根据结果，为我构建一个简单的日常习惯追踪应用，帮助我改善需要关注的领域。包含一个连胜（streak）功能来帮我坚持下去。用大白话解释所有内容。我不是开发人员。” 4. 整理你杂乱的文件夹桌面或下载文件夹乱糟糟的？直接让 Claude Code 来整理。真的，只要告诉它你想要什么，然后让它去干活。 “我的下载文件夹一团糟。检查一遍，根据文件类型和内容将文件整理到合理的子文件夹中。在移动任何东西之前，先把你的计划展示给我看并征求我的同意。我不懂技术，所以解释要简单点。” 5. 转录您的会议录音把你的会议音频或视频文件丢进一个文件夹。Claude Code 可以使用 OpenAI Whisper（本地运行且免费！）转录它们，清理错误，并标记发言人。 “我在 [文件夹路径] 有一个会议录音文件夹。使用 OpenAI Whisper 将每个文件转录为文本。清理明显的错误，并在能区分不同人的地方加上发言人标签。将每个转录保存为单独的文档。一步步指导我完成所有需要的设置。我是个纯新手。”...

Claude Code 进阶教程：详解 Skills、Subagents 与 MCP 高级用法 • Eyad

Varick Agents CTO Eyad Khrais 吃到上一篇 Claude Code 入门文章：The complete claude code tutorial 的红利后（在 X 上大受欢迎，总阅读量接近 500 万），又迅速写了第二篇 Claude Code 进阶的文章：The claude code tutorial level 2。这篇文章的核心在于介绍 Skills（技能）、Subagents（子智能体）和 MCP connectors（MCP 连接器）这三大高级功能。关键细节 Skills（技能）：教导 Claude 特定工作流定义与结构：Skill 是一个 Markdown 文件，包含 YAML 头信息（名称、描述）和具体的指令正文。创建方式：在 ~/.claude/skills/ 目录下创建文件夹和 SKILL.md 文件。工作原理：采用“渐进式披露”原则。Claude 启动时仅加载 Skill 的名称和描述（约 100 tokens），只有在判定相关时才加载完整指令。这允许用户拥有数十个技能而不占用过多上下文。应用场景：代码审查标准、Git 提交信息规范（如 Conventional Commits）、数据库查询模式、API 文档格式等。 Subagents（子智能体）：隔离上下文与任务分发核心优势：解决上下文退化问题。主对话将复杂任务委托给子智能体，子智能体在独立的 200K 窗口中运行，仅返回摘要给主对话，从而防止主上下文被污染。内置类型： Explore：快速、只读的代码库搜索与分析。 Plan：用于规划模式下的研究和架构决策。 General-purpose：处理需要多步操作的复杂任务。自定义智能体：用户可在 ~/.claude/agents/ 中定义自定义智能体（如安全审查员），设定特定的系统提示词和工具权限（如只读或读写）。通信模式：主智能体委托任务 -> 子智能体执行 -> 子智能体返回摘要。注意：子智能体不能再生成子智能体。 MCP Connectors（模型上下文协议）：连接外部世界功能：一种标准化的接口，允许 AI 模型直接调用外部工具和数据源，无需为每个工具单独集成。操作命令：使用 claude mcp add --transport http <name> <url> 添加连接。推荐集成： GitHub：管理代码库、PR 和 Issue。 Slack：读取频道历史和摘要。 PostgreSQL：直接查询数据库。 Linear/Jira：集成任务跟踪。实际效果：将原本需要切换 5 个标签页（查看 Issue、设计图、Slack 讨论、写代码、更新工单）的工作流，整合为一个连续的会话。原文：The claude code tutorial level 2 这是官方 Claude Code 教程的第二部分，我将涵盖更高级的概念，帮助你更充分地利用 Claude Code。如果你还没读过第一部分，我强烈建议你在读这篇文章之前先读一下。这篇文章直接建立在那些基础之上。...

Claude Code 使用指南：从入门到精通的 CTO 级最佳实践 • Eyad

本文整理自 Varick Agents CTO Eyad Khrais 发布的文章：The complete claude code tutorial 作者 Eyad 结合其 7 年的软件工程经验指出，使用 Claude Code 等 AI 工具时，最大的错误是直接开始输入或生成代码。成功的关键在于先进行架构规划和系统设计，通过与 AI 的深度对话确定方案，而非单向指令。 AI 模型是无状态的，输出质量完全取决于输入的质量。如果 Claude 的表现不佳，通常是因为用户的提示词（Prompt）模糊、缺乏上下文或架构指令不明确。掌握清晰的沟通技巧和约束条件是提升效率的核心。高效使用 Claude Code 需要精细化管理上下文窗口，利用 .clauderc 文件进行项目级配置，并灵活运用 MCP 和 Hooks 等高级功能来实现自动化和系统化集成，而非仅仅将其作为一次性问答工具。关键细节规划模式（Plan Mode）的重要性先思考再输入：直接生成代码往往效果不佳。建议先进入“计划模式”（按两次 Shift+Tab），花时间与 AI 讨论架构、端到端状态和调试思路。双向对话：不应只是单向下达指令，而应与 ChatGPT 、 Gemini 或 Claude 进行深入的来回对话，共同确定系统设计方案。核心配置文件 .clauderc 的使用技巧作为入职文档： .clauderc 是一个 Markdown 文件， Claude 在每次会话前都会读取。它应像给“失忆后的自己”写的笔记，而非给新员工的文档。保持精简： Claude 只能可靠地遵循约 150 到 200 条指令。文件内容应简短且与项目高度相关，避免无关信息。解释“为什么”：告诉 Claude 指令背后的原因（例如：“使用 TypeScript 严格模式是因为我们曾遇到隐式类型导致的生产错误”），这能帮助模型做出更好的判断。持续更新：将其视为活文档，一旦发现需要重复纠正 AI 某件事，就应立即将其加入配置文件。上下文窗口管理的艺术性能衰减点：模型性能在上下文使用率达到 20-40% 时就开始下降，而不是 100% 。会话隔离：每个功能或任务应开启一个新的会话，避免上下文混杂。外部记忆：对于复杂任务，让 Claude 将计划和进度写入外部文件，以便跨会话读取。复制粘贴重置法（The copy-paste reset）：当上下文臃肿时，复制关键信息，运行 /compact 或 /clear 清空上下文，然后只粘贴最关键的内容，以恢复模型智商。提示词与沟通策略具体明确：避免模糊指令（如“构建一个认证系统”），应提供具体的技术栈、存储方式和中间件要求。设定负面约束：明确告诉 Claude 不要过度设计或添加不必要的抽象，特别是对于 Claude 4....

2026 AGI-Next 前沿峰会：中国大模型“四巨头”的真实对话

本文整理自 2026 年 1 月 10 日，在由清华大学基础模型北京市重点实验室、智谱 AI 发起的 AGI-Next 前沿峰会上的一场含金量极高的闭门会：唐杰/杨植麟/林俊旸/姚顺雨罕见同台，“基模四杰”开聊中国AGI。以下内容由我和 Gemini 3 Pro 共同整理完成。由清华大学和智谱AI发起的AGI-Next前沿峰会上，当下中国大模型最核心的四股力量罕见地凑齐了：刚刚敲钟港股的智谱AI创始人唐杰、腾讯CEO办公室新任首席科学家姚顺雨（前OpenAI研究员）、拥有全球最强开源生态的阿里通义负责人林俊旸，以及刚拿了5亿美元融资的月之暗面CEO杨植麟。如果说2025年是中国大模型靠“快节奏迭代”和“疯狂开源”在国际上博得声量的一年，那么站在2026的开端，这四位掌舵人却显得格外冷静，甚至有些“悲观”。唐杰一上来就给全场泼了盆冷水：“别觉得差距缩小了。美国还有大量闭源模型没放出来，中美大模型的差距，说不定并没有缩小。” 在这个定调下，这场对话没有客套的商业互吹，只有关于技术路线的真实分歧和对未来的硬核预判。一、 Chat时代结束了，下一注押在哪？对于过去的2025年，唐杰有一个断言：DeepSeek出来之后，关于“Chat（对话）”这一范式的探索已经结束了。智谱的一年前的预判是Chat会替代搜索，但结果是谷歌自己革了自己的命。对于大模型公司而言，继续卷对话已经没有意义。智谱把新的筹码（Bet）全部押在Coding（代码）和Reasoning（推理）上。集推理、Agentic能力于一体的GLM-4.5，就是这一策略的产物。而作为“Scaling Law（缩放定律）”的忠实信徒，杨植麟依然坚持Scaling是重点。但他眼中的Scaling不再是单纯的一力降十会，而是要讲究**“Taste（品味）”**。 “通过架构和数据层面的改进，我们要让模型拥有不同的Taste，这样才不会千篇一律。”杨植麟认为，未来的竞争不看谁的参数更大，而看**Token Efficiency（Token效率）和Long Context（长文本）**的结合——即在长语境下，你的模型到底比别人强多少。唐杰对此表示赞同。那种疯狂堆算力、堆RL（强化学习）就能获得巨大收益的日子已经过去了。他提出了一个新的衡量标准：Intelligence Efficiency（智能效率）。在这个新阶段，算这笔账很重要：投入多少算力，甚至能不能用更少的Scaling，换来同等的智力提升？二、 To B 还是 To C？分化已经开始前OpenAI研究员、现任腾讯核心科学家的姚顺雨，带来了极其敏锐的硅谷视角。他发现，大模型领域正在经历一场剧烈的分化。 “Chat”在To C端已经到了瓶颈。姚顺雨举了个生动的例子：你今天问ChatGPT“我该吃什么”，和去年问它，体验差别并不大。因为对普通用户来说，模型的抽象代数能力变强了，你根本感知不到。C端用户需要的不是更强的模型，而是更丰富的Context（上下文）和Environment（环境）——比如模型知道今天很冷，知道你老婆想吃辣，这才能给出好建议。但在To B端，逻辑完全相反。“智能越高，生产力越高，赚的钱越多。” 姚顺雨观察到，美国企业愿意为最强的模型付溢价。一个月200美金的最强模型，和50美金的次强模型，企业会毫不犹豫选前者。因为OpenAI 4.5可能做对9个任务，差一点的模型只能做对6个，为了这3个的差距，企业还得雇人去监控，得不偿失。阿里通义的林俊旸则认为，这种分化是自然发生的。他提到了Anthropic（Claude的开发商），这家公司之所以成功，不是因为为了做Coding而做Coding，而是因为他们频繁和企业客户交流，发现企业的真实需求就是Coding。 “现在美国API消耗量里，Coding占了绝对主导。但在中国，Coding的Token消耗量还没那么大。”林俊旸一针见血地指出。三、下一个圣杯：自主学习与“主动”AI 硅谷现在最火的词是什么？姚顺雨透露，大街小巷的咖啡馆都在聊**“自主学习”**。这并不是什么科幻概念，而是正在发生的事实。Cursor每几个小时就用最新的用户数据训练；Claude 95%的代码已经是Claude自己写的了。 “这更像是一种渐变，而不是突变。”姚顺雨认为，2026年我们最大的挑战是想象力：如果AI真的实现了自主学习，它应该长什么样？是一个自动赚钱的交易系统，还是解决了一个人类未解的科学难题？林俊旸则更关注AI的**“主动性”**。现在的AI无论是ChatGPT还是各种Agent，都需要人类去Prompt（提示）才能启动。未来的AI，能不能环境就是Prompt？它看到环境变化，就自己决定去做事？ “但我最担心的不是AI说错话，而是它做错事。”林俊旸坦言，如果AI突然产生一个想法，觉得应该往会场扔个炸弹，这就是灾难。如何让AI既有主动性又安全，是比提升智力更难的课题。四、 20%的胜率，与“穷人的创新” 在对话的最后，主持人李广密抛出了一个尖锐的问题：三五年后，全球最领先的AI公司是中国团队的概率有多大？向来敢说的林俊旸给出了一个数字：20%。 “这已经非常乐观了。”他解释道，中美在算力上的差距是客观存在的，甚至可能有1-2个数量级的差异。美国的巨头可以用大量的算力去探索下一代Research，而中国的团队光是做交付，可能就占用了绝大部分算力。但他同时也提到了一个有趣的观点：“穷则思变”。正因为算力吃紧，中国团队必须要在算法和Infra（基础设施）的联合优化上下苦功夫。这种**“穷人的创新”**，反而可能在特定路径上跑出来。他回忆起2021年和做芯片的同事“鸡同鸭讲”的经历，大家都因为认知错位错失了机会，但现在，软硬结合的创新或许是打破僵局的关键。姚顺雨则对中国的人才充满信心。他认为，只要一个技术路径被证明是可行的（比如预训练），中国团队能以极高的效率复现并局部优化。真正的挑战在于：我们是否有勇气去探索那些不确定性极高、没人做过的新范式？ “中国对于刷榜或者数字看得太重了。”姚顺雨提到DeepSeek的一个优点，就是他们不太关注榜单，只关注什么是正确的事。结语这场闭门会没有给出“中国AI必胜”的廉价鸡血，却展现了一种理性的韧性。正如学术界代表杨强教授所言，AI的发展就像人类睡觉，需要清理噪音才能第二天学得更好。而唐杰的总结则更为从容： “永远不要想着环境是最好的。我们恰恰是幸运的，经历了环境从没那么好到变好的过程。如果我们笨笨地坚持，也许走到最后的就是我们。” 2026，中国大模型正在告别盲目的“卷”，走向更务实的“深”。

揭开 AI Agent 评估的神秘面纱 • Anthropic

本文翻译自 Anthropic 官方技术博客：Demystifying evals for AI agents。主要观点有效的评估（Evals）是团队自信地发布 AI Agent 的基础。与单轮对话的 LLM 不同，Agent 涉及多轮交互、工具调用和状态修改，这使得它们更难评估。缺乏评估会导致团队陷入被动的“打地鼠”模式，仅能在生产环境中发现问题。相反，建立评估体系能让问题在早期显现，量化改进效果，并促进产品与研究团队的协作。一个完整的评估体系包括任务（Task）、评分器（Grader）、评估工具（Harness）和数据集（Suite）。针对不同类型的 Agent（如代码、对话、研究、计算机操作），需要采用不同的评估策略。评分器通常结合了基于代码的确定性检查、基于模型的灵活评分（LLM-as-judge）以及人工审核，以平衡速度、成本和准确性。构建评估体系不需要一开始就追求完美。文章提出了一个实用的路线图：从少量的现实失败案例开始，逐步建立无歧义的任务集，设计稳健的测试环境和评分逻辑，并长期维护。重要的是要结合自动化评估、生产监控、A/B 测试和人工审查，形成一个多层次的质量保障网络（类似瑞士奶酪模型），以全面理解 Agent 的性能。关键细节核心定义与组件构建 Agent 评估时涉及以下关键概念： Task (任务)：具有定义输入和成功标准的单个测试用例。 Trial (尝试)：对任务的一次执行，通常需要多次运行以应对非确定性。 Grader (评分器)：对 Agent 表现进行打分的逻辑，可包含多个断言。 Transcript (实录)：完整的交互记录，包括输出、工具调用和推理过程。 Outcome (结果)：试验结束时环境的最终状态（例如数据库中是否存在预定记录）。不同类型 Agent 的评估策略 Coding Agents：通常使用确定性评分器。例如 SWE-bench Verified 通过运行单元测试来验证代码修复是否成功。 Conversational Agents：侧重于交互质量和任务完成度。常使用 LLM 模拟用户进行多轮对话，并结合状态检查（如工单是否解决）和语气评分。 Research Agents：评估较为主观。策略包括检查内容的依据性（Groundedness）、覆盖率（Coverage）和来源质量。 Computer Use Agents：在沙盒环境中运行，通过检查截图或 DOM 状态来验证结果。例如 WebArena 和 OSWorld。评分器类型基于代码 (Code-based)：如字符串匹配、静态分析。优点是快速、便宜、客观；缺点是缺乏灵活性。基于模型 (Model-based)：如 LLM 评分量表。优点是灵活、能捕捉细微差别；缺点是成本较高，需人工校准。人工评分 (Human)：专家审查。优点是质量金标准；缺点是昂贵且慢，通常用于校准模型评分器。处理非确定性与指标由于 Agent 行为在不同运行间存在差异，文章提出了两个关键指标：...

2026 开年 AI 流量大洗牌：ChatGPT 暴跌，Gemini 与 Kling 狂飙

Similarweb 发布截止到 2026 年 1 月 2 日的最新 AI 应用 Web 端访问数据。注意：该 PDF 文档中提到的增长率都是“基于域名级别（domain level）的 total visits（总访问量）”，“不包含 API 使用或集成”，可以简单的理解为这是 Desktop 与 Mobile Web 两端的 web 访问量统计。 OpenAI 的至暗时刻与谷歌的翻盘 OpenAI 2025 年太惨了，被 Google 按在地上摩擦。 ChatGPT 流量也从年初的 86.7%，降低为现在的 64.5%，可以预见的是今年大概率继续被 Gemini 蚕食。反观 Gemini 从年初的 5.7% 来到现在的 21.5% 排名第二。马斯克的 Grok 和 DeepSeek 流量相当都在 3.5 %左右，并列第三。 Anthropic 因为核心精力都在 toB 上面，toC 应用 Claude 2025 年整体流量变化不大，从年初的 1.5% 升至年底的 2%。但考虑到 Claude Code 的成功，2026 年如果 Claude Code 和 Claude 本身集成较好的好，机会也非常大。...

Manus 首席科学家季逸超（Peak）深度访谈：Manus 跑出 1 亿美金 ARR 的背后

2025 年 3 月 5 日，一家在武汉的创业公司蝴蝶效应发布一款 Agent 产品： Manus，该产品能够调度不同的工具解决复杂问题，其在 GAIA 等基准测试中表现出 SOTA 的性能。该产品一经发布便引发国内外的关注和讨论，火爆程度堪比 DeepSeek R1 的盛况。 2025 年 12 月 17 日，Manus 宣布年度经常性收入（ARR）已突破 1 亿美元。消耗总 token 量超过 147万亿 token，创建了超过 8000 万台虚拟计算机。 2025 年 12 月 30 日，Meta 以 20 亿美元收购 Manus 的公司蝴蝶效应。收购完成后，蝴蝶效应公司将保持独立运作，创始人肖弘出任 Meta 副总裁。配图来自于2025 年 7 月 Manus 团队对谈 YouTube 联合创始人陈士骏。左起依次为：季逸超（Manus 联合创始人、首席科学家）、肖弘（Manus 创始人兼 CEO）、陈士骏、张涛（Manus 联合创始人，产品负责人）本文整理自 Manus 被 Meta 收购前对外接受的最后一次专访，张小珺对谈季逸超（Peak）：Manus’ Final Interview Before the Acquisition: Oh, the Surreal Odyssey of 2025。这篇访谈长达 3 小时 31 分钟，季逸超的分享畅汗淋漓，信息量超大，虽然本文能让你快速了解其中的核心输出和认知，但我还是建议大家去看原视频，开 1....