OpenAI ChatGPT Agent 团队访谈

本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。 深入 OpenAI 全新超级智能体:一场与创作者的对话 想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。 我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。 “天作之合”:一切的起点 故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。 Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。 Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。 “我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。 团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。 同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。 不只是 1+1=2:超级智能体的全能工具箱 简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。...

July 23, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。 关键细节 核心功能与工作方式 任务执行能力: 用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和 API 访问权限,使其能够智能地选择最高效的方式来完成任务。 协同工作流程: ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。 性能与基准测试 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,ChatGPT agent 的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 具体数据: 在 Humanity’s Last Exam(专家级问题测试)中,得分达到 41.6%。 在 DSBench(数据科学任务)上,准确率达到 89.9%,显著超越人类表现。 在 BrowseComp(网络浏览信息定位)中,准确率达到 68.9%,比 deep research 高出 17.4 个百分点。 风险与安全措施 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(prompt injection)攻击。 多层安全防护: 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。 主动监督: 发送邮件等关键任务需要用户在“观察模式”(Watch Mode)下进行监督。 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。 可用性与当前限制 推出范围: 该功能已开始向 Pro、Plus 和 Team 用户推出,Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。 功能局限: ChatGPT agent 仍处于早期阶段,有时可能会出错。 幻灯片生成功能尚处于 beta 测试阶段,生成的内容在格式和美观度上可能较为基础。 原文:推出 ChatGPT 智能体:连接研究与行动 ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。...

July 22, 2025 · 3 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源模型:Qwen3-235B-A22B-Instruct-2507

Qwen团队开源 Qwen3 系列模型的最新更新版本 Qwen3-235B-A22B-Instruct-2507。这是一个在非思考模式(non-thinking mode)下运行的大型语言模型,相较于前一版本,在多个核心能力上均有显著提升。 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代,官方也给出了原文是“我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量”。意思就是混合思考模型虽然可以既有instruct 模型的快思考,也有 Thinking 模型的深度思考,但无法达到垂类模型的最佳质量。 Qwen3-235B-A22B-Instruct-2507 模型的核心升级在于全面提升了其综合能力和用户对齐度。主要体现在以下几个方面: 通用能力增强:在指令遵循、逻辑推理、文本理解、数学、科学、代码生成和工具使用等基础能力上取得了显著进步。 知识覆盖更广:大幅提升了在多种语言下的长尾知识覆盖范围。 用户对齐更优:在主观性和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力提升:增强了对 256K 超长上下文的理解能力。 模型规格 模型架构:该模型是一个拥有 235B 总参数和 22B 激活参数的因果语言模型(Causal Language Model),采用了专家混合(MoE)架构,包含 128 个专家,每次激活 8 个。 模型层数:共 94 层。 上下文长度:原生支持 262,144 (256K) tokens 的超长上下文。 运行模式:此模型仅支持非思考模式,输出中不会生成 <think></think> 标签。 性能表现 基准测试:在多个行业标准基准测试中,Qwen3-235B-A22B-Instruct-2507 的表现优于其前代模型,并在多个领域与 GPT-4o、Claude Opus 等顶级模型相当或更优。 突出领域:在推理能力测试(如 AIME25 得分 70.3,ZebraLogic 得分 95.0)和部分知识问答测试(如 CSimpleQA 得分 84.3)中表现尤为出色,显著超越了竞争对手。 使用与部署 快速上手:可通过最新版的 Hugging Face transformers 库轻松调用模型。 服务部署:推荐使用 sglang 或 vllm 等框架进行服务化部署,以获得最佳性能。 本地运行:支持 Ollama、LMStudio、llama....

July 22, 2025 · 1 min · fisherdaddy

AI 代理的上下文工程:构建 Manus 的经验教训 • Peak

本文是 Manus 首席科学家 季逸超 ‘Peak’ 在 2025 年 7 月 19 日发表的博客,主要介绍了 Manus 在构建 AI 代理过程中的一些经验教训,深入探讨了“上下文工程”的核心理念与方法。作者认为,对于现代 AI 代理而言,精心设计和管理上下文,比微调模型本身更为关键,它直接决定了代理的性能、成本和可扩展性。 主要观点 上下文工程优于模型微调:在产品快速迭代的背景下,依赖前沿大语言模型的上下文学习能力,通过“上下文工程”来构建 AI 代理,比耗时数周的模型微调更具优势。这使得产品能快速迭代,并与底层模型的进步保持同步。 上下文是代理行为的核心:代理的效率(速度和成本)、鲁棒性(错误恢复能力)和扩展性,最终都取决于上下文的构建方式。如何塑造记忆、环境和反馈,是决定代理智能水平的关键。 构建过程是实验科学:不存在一劳永逸的完美框架。构建高效的代理需要通过不断的实验、试错和迭代(作者称之为“随机研究生下降”),逐步找到最优的上下文管理策略。 关键细节 1. 围绕 KV 缓存进行设计 核心指标:KV-cache 命中率是影响代理延迟和成本的最重要指标。由于代理任务中输入与输出的 token 比例极高(Manus 中约为 100:1),有效利用缓存能带来巨大收益(成本可降低 10 倍)。 实践方法: 保持提示前缀稳定:避免在系统提示的开头加入时间戳等易变内容。 上下文只追加:避免修改历史记录,并确保 JSON 等格式的序列化顺序是确定的。 明确标记缓存断点:在必要时手动插入缓存标记,以优化缓存策略。 2. 工具管理:遮蔽而非移除 问题:在迭代过程中动态增删工具定义,会使 KV-cache 失效,并可能让模型对不再存在的工具感到困惑。 解决方案:使用“遮蔽”策略。通过上下文感知的状态机,在解码时约束模型的输出(logits),阻止或强制其选择特定工具,而不是从上下文中移除工具定义。例如,通过预填充回复来强制模型调用某个或某类工具。 3. 将文件系统作为外部上下文 挑战:即使有 128K 的上下文窗口,在处理网页、文档等大型观测数据时,也容易超出限制、导致性能下降且成本高昂。 解决方案:将文件系统视为一种无限大、可持久化的“终极上下文”。训练代理按需读写文件,将长期记忆和大型数据外部化存储。这种压缩是可恢复的(例如,保留 URL 而非网页全文),既能缩短上下文长度,又不会永久丢失信息。 4. 通过复述操控注意力 问题:在执行包含数十个步骤的复杂任务时,代理容易偏离最初目标(即“迷失在中间”问题)。 解决方案:通过刻意操控注意力来解决。Manus 会创建一个 todo.md 文件,并在任务过程中不断更新它。这种“复述”行为将全局计划推到上下文的末尾,使其处于模型近期注意力的焦点,从而保持任务目标的一致性。 5. 保留错误以促进学习 错误观念:许多开发者倾向于隐藏或擦除代理犯下的错误。 正确做法:将失败的尝试、错误信息和堆栈跟踪保留在上下文中。这为模型提供了宝贵的学习证据,使其能够隐式地更新内部认知,从而避免重复犯错。错误恢复是衡量真正代理能力的关键指标。 6. 避免少样本提示的陷阱 风险:如果上下文中充满了相似的成功案例(少样本示例),模型会倾向于模仿这些模式,即使当前情况已不适用,导致行为僵化或出错。 解决方案:在上下文中引入受控的多样性。通过在行动和观察的序列化模板、措辞或格式上引入微小变化,打破单一模式,帮助模型更好地泛化和适应。 原文: AI代理的上下文工程:构建Manus的经验教训 2025/7/18 – Yichao ‘Peak’ Ji...

July 21, 2025 · 1 min · fisherdaddy

Meta 超级智能团队全解析:44 位 AI 精英背景、专长与成就

为了实现 Meta 的“超级智能”项目,扎克伯格亲自上阵,忙了几个月,终于凑齐了 Meta Superintelligence Labs(MSL)。其中的每个人都是精英中的精英,年薪从千万到上亿美元不等,大部分人来自于 OpenAI(40%) 和 Google DeepMind(20%),中国人占比 50%。上周末社交平台上曝光了 MSL 团队 44 人的详细名单,我用 OpenAI DeepResearch 对其中的每个人进行了深度调研,以下是团队中每个人的基本背景、目前在 Meta 的职位,以及个人成就亮点。 纳特·弗里德曼(Nat Friedman,美国) 纳特·弗里德曼是 Meta 超级智能团队的联合负责人,现任 Meta 超级智能部门副总裁,负责推进 AI 产品和应用研究。他加入 Meta 刚满 18 天,但在技术行业拥有约 20+ 年的丰富经验(他早在1999年就创办了开发者平台公司 Ximian)。在当前职位之前,弗里德曼曾联合创立风险投资公司 NFDG,并担任 GitHub 首席执行官。他在开发者工具和开源生态领域造诣颇深,善于将前沿技术产品化。学术方面,他获得了麻省理工学院计算机科学学士学位。弗里德曼以敏锐的产品洞察力和丰富的创业经验,带领团队将研究成果转化为实际产品。 丹尼尔·格罗斯(Daniel Gross,以色列) 丹尼尔·格罗斯是团队的产品方向领导,加入 Meta 仅 18 天,拥有约 15 年的从业经验,现任 Meta 超级智能部门产品负责人。在此之前,他是 AI 创业公司 Safe Superintelligence 的联合创始人兼 CEO,并与弗里德曼共同创立了投资机构 NFDG。格罗斯年少成名,18 岁即进入创业孵化器 Y Combinator,此后一直专注于人工智能产品的创业和投资,对 AI 产品设计与用户需求有深刻理解。他没有传统的高等学历背景(年轻时即投身创业),但其作为创业者和投资人的经历使他成为引领 Meta AI 产品战略的理想人选。 扬·勒坤(Yann LeCun,法国) 扬·勒坤是深度学习领域的开拓者,现任 Meta 首席 AI 科学家兼副总裁,在 Meta 工作已逾 10 年(自 2013 年起领导 Facebook AI Research)。他在学术和工业界拥有超过 35 年的资深经验,是卷积神经网络和深度学习革命的奠基人之一。当前他在 Meta 超级智能团队中负责总体科研方向,把关最前沿的 AI 技术研发。同时,勒坤也是纽约大学的教授,长期从事机器学习研究培养人才【75†】。他的专长涵盖计算机视觉、深度学习和强化学习等领域,曾荣获图灵奖等诸多荣誉。学术方面,勒坤在巴黎皮埃尔和玛丽·居里大学获得计算机科学博士学位。他的加盟为团队带来了顶尖的科研洞见和经验。...

July 21, 2025 · 5 min · fisherdaddy

写作就是思考

本文的核心论点是 “写作即思考”。作者强调,科学写作不仅是发表研究成果的工具,更是一个至关重要的认知过程。它迫使研究者以结构化、有条理的方式整理思绪、提炼核心信息,并将多年的研究数据转化为一个有说服力的故事。因此,作者呼吁,尽管 LLMs 提供了便利,但科学界应继续重视由人类主导的写作过程,因为完全外包写作会剥夺研究者深入思考和创造性塑造其工作的宝贵机会。 关键细节 写作的认知价值 结构化思维: 写作能将大脑中混乱、非线性的思绪,转化为结构化、有逻辑的文字,从而帮助研究者理清思路,发现新的见解。 提炼核心信息: 通过写作,研究者可以将数年的研究、数据和分析整理成一个完整的故事,从而明确其工作的核心信息和影响力。 科学依据: 研究表明,书写行为(如手写)能促进大脑的广泛连接,并对学习和记忆产生积极影响。 LLMs 在写作中的局限与风险 缺乏责任主体: LLMs 无法为内容负责,因此不能被视为作者。完全由 LLM 生成的稿件不应被发表。 “幻觉” 风险: LLMs 可能会产生被称为 幻觉 的错误信息,甚至编造参考文献,因此其生成的内容必须经过人类的严格核查。 效率问题: 编辑和修正 LLM 生成的文本可能比从头开始写作更耗时,因为理解和修改其内在逻辑非常困难。 思想的替代: 如果文章完全由 LLM 撰写,读者读到的将是模型的“思考”,而非研究者本人的思想。 LLMs 作为辅助工具的潜力 提升语言质量: LLMs 可以帮助改善文章的可读性和语法,对非英语母语的研究者尤其有帮助。 辅助研究工作: 它们可用于搜索和总结大量科学文献。 激发创意: LLMs 可以提供要点、协助头脑风暴、克服写作障碍,甚至通过连接看似无关的主题来激发新想法。 原文 在大语言模型时代,论人类科学写作的价值。 撰写科学论文是科学研究方法不可或缺的一部分,也是交流研究成果的常规实践。然而,写作不仅仅是报告结果,它也提供了一种发掘新思想和新观点的工具。写作迫使我们以一种结构化、有目的的方式进行思考,而不是任由思绪天马行空、非线性地游荡。通过动笔写作,我们可以将多年的研究、数据和分析整理成一个完整的故事,从而明确我们工作的核心信息及其影响。这不仅仅是一种哲学观察,它有科学证据的支持。例如,手写可以促进大脑广泛的连接性1,并对学习和记忆产生积极影响。 此文旨在呼吁大家继续认识到人类撰写科学论文的重要性。 “此文旨在呼吁大家继续认识到人类撰写科学论文的重要性” 在大语言模型(LLM)时代,这一呼吁似乎有些不合时宜。只要有合适的提示,LLM就能在几分钟内生成完整的科学论文2(以及同行评审报告3),这似乎在研究工作完成后为成果发布节省了时间和精力。然而,由于LLM缺乏责任主体,它们不被视为作者。因此,我们不会考虑发表完全由LLM撰写的稿件(允许使用LLM进行文案编辑,但必须声明)。更重要的是,如果写作即思考,那么我们读到的难道不是LLM的‘思想’,而不是论文背后研究人员的思想吗? 目前的LLM也可能会出错,这种现象被称为“幻觉”4。因此,LLM生成的文本需要经过彻底的检查和验证(包括每一条参考文献,因为它可能是编造的5)。所以,目前的LLM究竟能节省多少时间仍是未知数。编辑一篇LLM生成的文本,可能比从零开始撰写一篇论文或同行评审报告更加困难和耗时,部分原因在于,你需要理解其背后的逻辑才能进行编辑。其中一些问题可能会通过仅在科学数据库上训练的LLM来解决,例如本期中刘凤麟(Fenglin Liu)及其团队的一篇综述文章所概述的那样。时间会证明一切。 这并不是说LLM不能成为科学写作中的宝贵工具。例如,LLM可以帮助提高文本的可读性和语法,这对于非英语母语者尤其有用。LLM在搜索和总结多样化的科学文献方面也可能很有价值6,它们可以提供要点,辅助进行头脑风暴。此外,LLM还有助于克服写作障碍,为研究发现提供替代性解释,或识别看似不相关的学科之间的联系,从而激发新想法。 尽管如此,将整个写作过程外包给LLM,可能会剥夺我们反思自己领域的机会,也让我们无法参与到将研究成果塑造成引人入胜的叙述这一创造性且至关重要的任务中——这项技能的重要性无疑超越了学术写作和出版本身。

July 21, 2025 · 1 min · fisherdaddy

我为何离开OpenAI?一位前员工对公司文化、代码和产品发布的深度反思

这篇文章是一位前员工在 OpenAI 工作一年后(2024年5月至2025年)的个人反思。作者分享了对公司文化、技术实践以及参与 Codex 项目发布的亲身经历,旨在提供一个内部视角,揭示这家快速发展的人工智能公司的真实面貌。 主要观点 独特的公司文化: OpenAI 拥有一个由研究驱动、自下而上、精英领导的文化。公司发展速度极快,鼓励主动性和快速迭代,但也因此面临着巨大的内部流程和沟通挑战。 高风险与高回报的环境: 公司在巨大的公众审视、激烈的行业竞争和构建通用人工智能 (AGI) 的宏大目标下运作,氛围严肃且充满紧迫感。尽管如此,员工普遍怀有“做正确的事”的使命感,致力于普惠人工智能技术。 雄心勃勃的战略布局: OpenAI 的目标远不止于 ChatGPT,它在 API、基础研究、硬件、图像生成等多个领域展开竞争,展现出惊人的雄心。 Codex 项目的成功冲刺: 作者将 Codex 编码助手的发布视为职业生涯的亮点。这个项目由一个精干的团队在 7 周内完成,体现了 OpenAI 仍然具备初创公司般的敏捷性和执行力。 对个人成长的巨大价值: 作者认为,在 OpenAI 的一年是其职业生涯中收获最丰富的时期之一,并建议处境不佳的创业者可以考虑加入大型 AI 实验室,以洞察技术前沿。 关键细节 公司文化与运营 高速增长: 在作者任职的一年里,公司规模从约 1,000 人增长到超过 3,000 人,导致许多原有流程失效,领导层角色也随之剧变。 沟通方式: 公司内部沟通完全依赖 Slack,几乎不使用电子邮件。 决策模式: 奉行“自下而上”的原则,好的想法可以来自任何地方,而非依赖宏大的“总体规划”。有能力提出并执行好想法的人会得到提拔。 行动至上: 鼓励员工“无需许可”便可启动项目。例如,在 Codex 正式立项前,内部已存在 3-4 个类似的原型。 高度保密: 由于受到外界密切关注,OpenAI 是一个非常神秘的地方,员工不能对外透露工作细节,收入等关键数据也受到严格保护。 安全焦点: 安全团队重点关注实际风险(如仇恨言论、滥用、生物武器制造等),而非理论风险(如智能爆炸)。 成本结构: GPU 的成本是公司最主要的支出,远超其他所有开销。 外部影响: Twitter 上的舆论对公司有显著影响,被戏称为“靠 Twitter 氛围运营”。 团队灵活性: 团队和人员可以被迅速调动以支持高优先级项目,无需等待季度规划等传统流程。 技术与代码 技术栈: 主要使用一个巨大的 Python monorepo(单一代码库),并辅以 Rust 和 Go 服务。所有服务都运行在 Azure 上,但主要依赖其少数几项核心服务。 人才来源: 大量工程人才来自 Meta,使得 OpenAI 的基础设施文化与早期的 Meta 有相似之处。 代码文化: “代码为王”,决策通常由执行工作的团队做出,这促进了行动力,但也导致了部分代码库的重复。 技术债: 快速扩张导致了一些技术问题,例如 CI(持续集成)频繁中断,测试运行时间过长等。 Codex 项目发布 开发周期: 从第一行代码到产品正式发布,仅用了 7 周时间。 工作强度: 团队为此进行了高强度冲刺,作者称之为近十年来工作最努力的一段时期。 产品理念: Codex 被设计为一个异步编程助手,用户可以像与同事协作一样,分配任务给它,然后等待它返回一个拉取请求 (PR)。 巨大影响力: 发布后的 53 天内,Codex 已生成了 630,000 个公开的 PR,展现了其强大的生产力。 行业竞争 三强争霸: 作者认为,通往 AGI 的道路目前是 OpenAI、Anthropic 和 Google 之间的三方竞赛,每家公司因其不同的基因(消费级 vs....

July 16, 2025 · 3 min · fisherdaddy

快速了解一下月之暗面开源的全球首个万亿参数级大模型 Kimi K2

Moonshot AI(「月之暗面」)在 2025 年 7 月 11 日正式发布并开源了旗下大模型 Kimi K2,并发布技术报告,让我们来快速了解一下。 关于 Kimi K2 的基本信息 Kimi K2 是个非推理模型,专注于文本和代码任务,不具备图像处理能力。 采用 MoE 架构,拥有总参数约 1T(1 万亿)、激活参数 32B 模型上下文 128K 词汇表大小 16K 模型包含 384 个专家,每个 token 会选择 8 个专家进行计算 支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等 训练方法:Kimi K2 在预训练阶段使用改进的 MuonClip 优化器替代传统 Adam,成功在 15.5T Token 规模的数据上进行稳定训练,且训练不稳定性为零,解决了万亿参数模型训练中的不稳定(如最大对数值爆炸)问题。 值得一提的是,K2 引入了一套大规模 Agentic 任务数据合成和强化学习训练流程:通过模拟数百个领域的工具((包括真实的 MCP 工具和合成工具))使用场景生成海量高质量训练数据,并让模型充当自己的评判员(自我反馈机制)进行通用强化学习。这些创新使 K2 在知识推理、数学和编程等任务上具备了出色的泛化能力和自主决策能力。 Kimi K2 系列提供两个主要版本: Kimi-K2-Base:基础模型,适合需要进行深度微调和定制化解决方案的研究者和开发者。 Kimi-K2-Instruct:指令微调模型,适用于通用的聊天和智能体应用场景,无需长时间思考即可快速响应。 Benchmark 成绩 Agent与编码能力 从各个评测集的结果来看,其 agent 能力 和编码能力与 Anthropic 的 Claude4 模型差距很小,而数学解题能力则优于 Claude 4 模型。...

July 14, 2025 · 2 min · fisherdaddy

别只盯着 Manus “跑路”,它超前的产品认知更值得关注

最近 Manus 团队国内裁员,总部搬至新加坡,国内也无法访问了。Manus 的爆火应该是今年 3 月份, 国内很多媒体称之为 DeepSeek R1 之后的另一国运级别的创新,但它的创新不是底层模型创新,而是产品创新。如果你仔细研究过 manus 这个产品,会发现其实它本质其实就是 OpenAI 的 DeepResearch,只是表现形式不同,做个不一定恰当的类似就是DeepSeek R1 之于 OpenAI o1。 一开始我也像很多人一样认为 manus 只是个套壳产品,但我深入使用这个产品之后,彻底否定了我的认知错误,它不是简简单单的套壳,而是一个超前的产品。 在 manus 出来之前,我一直没想清楚自动操作电脑或者手机这种技术有什么大规模的应用场景,除了黑灰产或者炫技,直到 manus 的出现让我 get 到这种技术的正确用法。不应该是 AI 控制你的电脑或手机,而是应该 AI 用自己的电脑或手机(虚拟机)帮我完成一些事情。这一点其实是 manus 团队的一个非常超前的认知: ➡️ AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器; ➡️ 操作 GUI 不是抢夺用户设备的控制权,而是让 AI 有自己的虚拟机; ➡️ 编写代码不是最终目的,而是解决各种问题的通用媒介; ➡️ Attention 不是 “all you need”,解放用户的 attention 才能 User’s Need;产品设计的核心不是争夺用户注意力,而是通过解放用户注意力来真正满足需求。 还有一个认知,我觉得特别棒:“当无法确保最终结果的绝对正确性时,必须尽可能透明地展示执行过程,并为用户提供干预的机会。” 还记得 DeepSeek R1 出来的时候大家非常喜欢,不是仅仅是因为结果非常惊艳,核心的原因是思考过程太像人类了。 我认为 manus 的成功是团队认知超前的结果(我一直信奉一句话:人只能挣到认知之内的钱)。AI 时代,只要你能提前预判几个月、半年或 1 年的趋势,并提前布局做出超预期的产品,你大概率会成功,manus 就是一个典型的例子,它提前预判和落地了 OpenAI DeepResearch 类似的产品,当然也有他们在浏览器研发上的积累有关。这里有点值得一提,manus 团队本来要做 AI 浏览器,类似于 Arc浏览器,但这个事由一个核心的问题不通:传统浏览器本质上是为单用户设计的交互工具。当 AI 开始执行任务时,用户只能被动等待,或者与 AI 争夺浏览器的控制权。...

July 13, 2025 · 1 min · fisherdaddy

Pieter Levels:一位程序员如何靠自己打造年入300万美元的“一人帝国”

本文来自于 Stripe 对 Pieter Levels 的访谈,他主要分享了如何以数字游牧者的身份建立成功的在线业务,对欧洲加速主义的看法,以及作为自力更生的创业者,年收入超过 300 万美元的非凡方法和理念。 在科技圈,我们听惯了融了千万、上亿美元的宏大叙事,但 Pieter Levels 的故事却像一股清流,让人眼前一亮。他或许是这个时代最知名的“独立黑客”(Indie Hacker)和“数字游民”(Digital Nomad)。当大多数创业者都在追逐风险投资时,Pieter 独自一人,靠着一台笔记本电脑,在世界各地旅行,打造出了一个年收入超过300万美元的“一人帝国”。 他的作品包括: Nomad List:一个帮助数字游民寻找生活和工作地点的社区,年经常性收入(ARR)达到70万美元。 Remote OK:一个远程工作招聘网站,至今已创造了340万美元的总收入。 Photo AI:一个AI写真生成工具,年经常性收入(ARR)达到60万美元。 最让人惊讶的是,这一切的背后,没有团队,没有办公室,只有 Pieter Levels 本人。 独立黑客 vs. VC模式:一场关于自由的抉择 Pieter 的创业哲学与硅谷的主流背道而驰。他坦言,在2013、14年他刚踏入这个圈子时,“独立开发”和“白手起家”(Bootstrapping)的概念还非常小众。当时的剧本几乎是固定的:找投资人、烧钱、快速扩张、招聘大量员工、租个大办公室。 “我最讨厌看到VC的钱被白白烧掉,”Pieter 说,“有些公司用户寥寥,却能融资几千万甚至上亿美元,纯粹靠炒作,然后就销声匿迹了。” 他认为,接受风险投资就像签下了一份“不成功便成仁”的契约。投资人期待的是独角兽,是百倍回报。这意味着,一家年收入1000万美元的公司在VC眼中可能是失败的,因为它没有成为10亿美金的巨头。“这太难了,成功的概率可能只有百分之几。很多人为此付出了20多岁时最宝贵的五到七年。” 而作为独立开发者,如果能做一家年入1000万美元的公司,哪怕只拥有1%的股份(这里他可能想说100%),那生活也会无比滋润。独立开发,意味着你可以自由定义“成功”,而不是被外界的期望所束缚。 当然,他也承认,有些类型的公司,比如Stripe这样的金融基础设施,确实需要雄厚的资本。但他欣赏Stripe最初的成长方式——先写代码,找到付费客户,在看到增长势头后才逐步融资,这是一种有机的、健康的成长路径。 从传真合同到AI自动化:一个人的生产力革命 Pieter的创业基因似乎很早就种下了。他回忆起12岁时,想在网上卖东西赚钱。他找到了一个叫WorldPay的支付服务商,打印出了一份厚厚的、来自美国的合同。他央求爸爸签字,爸爸读完整份合同后惊呆了:“这份合同让你对最高1亿美元的损失负责!” “不,老爸,你不懂,我必须在互联网上赚钱!”最终,他爸爸还是签了字,他们用传真机把合同发到了美国。虽然那个网站最终没卖出任何东西,但这段经历却成了他创业路上的一个有趣注脚。 Pieter 的成功,很大程度上源于他解决自身问题的热情。过去十年,他一直在旅行和工作,用代码为自己创造各种解决问题的小工具。大部分项目都无人问津,但总有那么几次,他恰好击中了很多人的痛点。 他写了超过70个项目,而且很多“失败”的项目他都舍不得关掉,因为他想保留这些“互联网历史”。比如一个叫 GoFuckingDoIt.com 的网站,用户立下一个目标(比如戒烟),设定一个截止日期,并绑定信用卡。到期后,由他指定的朋友来评判是否完成。如果失败,信用卡就会被扣款。这个用PHP写的网站,十年没改过代码,至今每月还能带来50美元的收入。 而如今,AI和自动化成了他维持“一人帝国”运转的秘密武器。 以 Nomad List 为例,管理一个拥有4万名成员的社群聊天室曾经是“地狱般的体验”。各种争论和 drama 让他头疼不已,而且无论他怎么处理,都难免被指责偏袒某一方。现在,他用GPT-4来做社区管理。 “GPT是中立的。我写下社群规则,它会根据规则自动将违规的人禁言10分钟或一天,而不是直接封禁。我不需要雇人,也不需要自己去管理人际关系,这样我才能专心创造。” 这套自动化系统不仅解放了他,也让他的业务效率大幅提升。他注意到,在过去一个月里,来自ChatGPT的推荐流量暴涨了5倍,从占总流量的4%飙升到了20%,这对于讨厌做SEO的他来说,无疑是个巨大的福音。 一个数字游民眼中的世界:旅行、投资与“欧洲加速主义” 在超过40个国家、150个城市生活过的经历,深刻地改变了Pieter。他鼓励每个人都去旅行,去看看完全不同的世界。 “当你离开自己的国家,你会发现世界比你想象的要安全得多。我在外十年,从未被抢过,唯一一次被入室盗窃还是在我的家乡。” 但他也坦诚,长期的漂泊生活曾让他“极度孤独”。你会失去与本土文化的连接,感觉自己像一个“脱了线的风筝”(untethered),需要花费数年时间,在心理上重建自己的根基。 这种全球化的视角也体现在他的投资理念上。他像沃伦·巴菲特一样,推崇简单的指数基金投资,比如标普500。他批评欧洲人普遍存在的“本土偏好”(home country bias)——德国人买德国股票,荷兰人买荷兰皇家壳牌。在他看来,这是非常危险的资产集中。 他对欧洲的现状有着更深刻的忧虑和激进的想法。他发起了“欧盟加速主义”(EU/ACC),希望唤醒欧洲的活力。 “欧洲有顶尖的人才,但他们被监管和政府的天花板压得喘不过气,”Pieter指出,“在欧洲,有一种奇怪的文化,认为商业是坏的,赚钱是可耻的。但在我看来,你银行账户里的钱,很大程度上代表了你为社会创造的价值。” 他认为欧洲正面临危机,而“永远不要浪费一场危机”。现在,越来越多欧洲人开始意识到问题所在,这正是变革的契机。他众包了一个“如何修复欧洲”的看板,收到了成千上万条建议,其中被顶得最高的一条就是:为新企业减轻监管负担。 未来的路 当被问及未来五年会是什么样子时,Pieter 并没有一个确切的答案。他可能会卖掉几个项目,甚至可能去尝试一下VC投资——他笑称自己最近已经开始做一些天使投资了,虽然每次都感觉自己像个“冒牌货”。 “你需要保持神经的灵活性(neuroflex),尝试不同的东西,”他说。但眼下,他很享受和女友一起旅行、生活、创造的状态。“我每天都对能过上这样的生活心存感激。” 从荷兰小镇那个渴望在网上赚钱的12岁少年,到今天这个环游世界、年入数百万美元的独立开发者,Pieter Levels 的故事告诉我们,通往成功的路不止一条。有时候,最简单、最忠于自己的那条,反而能带你走得更远。

July 12, 2025 · 1 min · fisherdaddy