前谷歌 CEO 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好

本文来自于是谷歌前首席执行官、Relativity Space 执行主席兼首席执行官 埃里克·施密特在 2025 年巴黎 RAISE 峰会上的炉边谈话。访谈中施密特谈论的内容从 AGI 的时间表到硅谷地缘政治,从递归自我改进到万亿美元的资本支出竞赛等。 埃里克·施密特:我们正处在一个新纪元的黎明,而大多数人还没准备好 当埃里克·施密特(Eric Schmidt)——这位前谷歌CEO,科技界的重量级人物——登台时,他带来的不是又一个关于AI如何提升效率的商业演讲。他带来的是一个更宏大、也更令人不安的宣告:我们正站在一个全新纪元的门槛上,其深刻程度堪比“启蒙运动”,而绝大多数人,尤其是各国领导者,对此毫无准备。 这个观点并非一时兴起。施密特与已故的外交巨擘亨利·基辛格(Henry Kissinger)合著了《AI世纪》(The Age of AI)一书,书中早已埋下伏笔。基辛格曾将我们现在所经历的,与人类从信仰神明转向运用理性的“启蒙运动”相提并论。而现在,我们迎来的,是一种全新的、非人类的智能。 施密特认为,人们对AI最大的误解,就是还停留在两年前ChatGPT刚问世时的印象里。他直言不讳地对各国政府说:“第一,这玩意儿已经不是那个ChatGPT了,一切都变了。第二,你们根本没准备好。第三,你们最好赶紧围绕它组织起来,无论是好的方面,还是坏的方面。” “旧金山共识”:三年内,世界将天翻地覆 施密特最近提出了一个新词——“旧金山共识”(The San Francisco Consensus)。这听起来像个圈内黑话,但背后却是硅谷核心圈子里一群人的共同信念。 这个共识的核心观点是:在未来两到四年内(平均说法是三年),整个世界将被彻底改变。 听起来有点夸张?让我们看看这个论证是如何展开的: 第一步:智能体革命(The Agentic Revolution) 我们已经有了大型语言模型(LLM),比如ChatGPT。但真正的变革在于,当这些模型被赋予记忆和推理能力时,它们就变成了“智能体”(Agents)。 施密特用一个生动的例子解释了这一点:假设你想在加州建一栋新房子。你可以部署一系列智能体: 智能体A:负责寻找合适的地皮。 智能体B:研究当地所有的建筑法规。 智能体C:设计建筑蓝图。 智能体D:挑选并雇佣承包商。 (施密特开玩笑说)智能体E:如果房子建砸了,负责起诉承包商。 这个看似简单的流程,其实可以套用到任何商业、政府乃至个人活动中。这就是“智能体革命”,它将重塑我们作为人类的工作方式。 第二步:推理革命(The Reasoning Revolution) 这才是更令人震撼的部分。最新的AI模型(如GPT-4o)已经展示出惊人的推理能力,你甚至可以看它在解决一个复杂问题时来回思考、自我纠正。谷歌的一个数学模型,其解题能力已经达到了数学专业研究生的前10%水平。 可以毫不夸张地说,我们现在的AI系统,在许多高等学科(数学、物理等)上的能力,已经能媲美90%的人类顶尖学者。 从 AGI 到超级智能:我们离“魔法”还有多远? 当“智能体革命”和“推理革命”结合,并引入一个关键概念——递归式自我完善(Recursive Self-Improvement)时,一切就变得不可预测了。 这指的是系统开始自我学习、自我改进,其进步速度会以一种我们人类无法理解的组合方式爆炸式增长。 这引出了两个关键的未来阶段: 通用人工智能 (AGI):这是指AI拥有了像人一样的“自由意志”和通用智能。它早上“醒来”,可以自己决定去学什么、探索什么。施密特个人预测,这将在未来四到六年内实现。 超级智能 (Superintelligence):这是指AI的智能超越了所有人类智慧的总和。如何判断我们是否达到了这个阶段?施密特给出了一个绝妙的测试标准:当AI能够证明一个我们已知为真、但任何人类(哪怕是全人类加起来)都无法理解其证明过程的命题时,超级智能就到来了。 基辛格曾问过一个深刻的问题:那是什么?是魔法吗?当人们亲眼目睹这种自己无法理解的力量时,很可能会因为恐惧而拿起武器反对它。施密特认为,这一天在十年内就可能到来。 这也带来了严峻的国家安全问题。想象一下,如果一个国家拥有了一百万个不知疲倦、不吃不喝、24小时工作的AI研究员,它的创新速度将呈指数级增长。这会让它的对手感到,一旦落后,就再也无法追赶,从而可能引发先发制人的冲突。 算力即战略:一场全球性的 AI 权力游戏 要实现这一切,背后需要的是天文数字般的算力投入和资本支出(Capex)。很多人觉得这像一场泡沫,行业高管们嘴上也说着“我们在过度建设”,但私下里都认为“倒霉的会是别人,我的投资没问题”。 施密特认为这可能不是泡沫。他引用了一句硅谷的老话:“格鲁夫给予的,盖茨会带走。”(Grove giveth and Gates taketh away),意思是硬件(英特尔的安迪·格鲁夫)性能的提升,总会被软件(微软的比尔·盖茨)无尽的新功能所消耗掉。历史上,硬件的容量从未被浪费过。 这场算力竞赛,也正在重塑全球的AI权力格局。 美国模式:资本雄厚,公司倾向于建立庞大的数据中心,提供功能强大的闭源服务。 中国模式:恰恰相反,在Deepseek等项目的引领下,中国正大力发展开源、开放权重的模型,背后很可能有政府资金的支持。 这会带来一个非常有趣的局面:未来,西方国家可能拥有最先进的AI模型,但世界上大多数国家和用户使用的,却可能是来自中国的开源模型。这其中蕴含的地缘政治风险,我们才刚刚开始思考。 唯一会让你失败的,是行动太慢 回顾过去,施密特坦言,他在谷歌领导安卓系统应对移动互联网浪潮时,犯下的每一个错误,归根结底都是时间的错误。...

July 23, 2025 · 1 min · fisherdaddy

OpenAI ChatGPT Agent 团队访谈

本文来自于红杉资本对 OpenAI ChatGPT Agent 团队的访谈视频。团队成员 Isa Fulford、Casey Chu 和 Edward Sun 揭示了他们如何将 Deep Research 和 Operator 结合成一个强大的 AI 代理,该代理能够执行持续长达一小时的复杂多步骤任务。通过为模型提供访问虚拟计算机的权限,该计算机具有文本浏览、视觉浏览、终端访问和 API 集成功能,并且所有这些功能都共享状态,他们创造了可能首个真正具身化的 AI 助手。该团队讨论了他们的强化学习方法、用于现实世界行动的安全缓解措施,以及小型团队如何通过密切的研究应用协作来构建变革性的生成式 AI 产品。 深入 OpenAI 全新超级智能体:一场与创作者的对话 想象一下,如果有一个 AI 不仅能为你深度研究一个课题,还能顺手帮你预订机票、制作一份精美的幻灯片,甚至为幻灯片生成配图。这听起来像是科幻电影里的情节,但这正是 OpenAI 一个小型精英团队正在实现的目标。 我们有幸与这个新项目背后的核心成员——来自 OpenAI 的 Issa Fulford、Casey Chu 和 Edward Sun 聊了聊。他们分享了这个全新“智能体(Agent)”的诞生故事,它的强大能力,以及未来激动人心的可能性。 “天作之合”:一切的起点 故事要从 OpenAI 的两个明星项目说起:Deep Research 和 Operator。 Deep Research 就像一个学霸研究员。它擅长通过纯文本浏览器高效地阅读海量信息、浏览网页、综合内容,并最终生成一份带引用的详尽研究报告。 Operator 则更像一个动手能力超强的助理。它拥有一个完整的图形界面(GUI)浏览器,可以像真人一样点击、滚动、拖拽、填写表单,帮你完成在线购物、预订等需要实际操作的任务。 “我们当时各自规划着产品路线图,然后突然意识到,‘嘿,这简直是天作之合!’” Casey 回忆道。 团队发现,用户常常需要一个能“先研究,再行动”的工具。比如,一个常见的需求是“帮我研究一下去某个地方的旅行计划,然后帮我预订。” Deep Research 能做前者,Operator 能做后者,但两者是割裂的。 同时,两个产品也各有短板:Deep Research 无法处理需要登录或交互性强的网站,而 Operator 在处理长篇文本时效率不高。将两者结合,让它们互补,成了一个再自然不过的想法。 不只是 1+1=2:超级智能体的全能工具箱 简单地把两个东西粘在一起可不够。团队的目标是实现“1+1=3”的效果。他们不仅融合了 Deep Research 和 Operator 的核心能力,还扔进了一大堆能想到的实用工具,把它们全部集成在一个共享的虚拟计算机环境中。...

July 23, 2025 · 1 min · fisherdaddy

介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。 关键细节 核心功能与工作方式 任务执行能力: 用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和 API 访问权限,使其能够智能地选择最高效的方式来完成任务。 协同工作流程: ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。 性能与基准测试 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,ChatGPT agent 的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 具体数据: 在 Humanity’s Last Exam(专家级问题测试)中,得分达到 41.6%。 在 DSBench(数据科学任务)上,准确率达到 89.9%,显著超越人类表现。 在 BrowseComp(网络浏览信息定位)中,准确率达到 68.9%,比 deep research 高出 17.4 个百分点。 风险与安全措施 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(prompt injection)攻击。 多层安全防护: 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。 主动监督: 发送邮件等关键任务需要用户在“观察模式”(Watch Mode)下进行监督。 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。 可用性与当前限制 推出范围: 该功能已开始向 Pro、Plus 和 Team 用户推出,Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。 功能局限: ChatGPT agent 仍处于早期阶段,有时可能会出错。 幻灯片生成功能尚处于 beta 测试阶段,生成的内容在格式和美观度上可能较为基础。 原文:推出 ChatGPT 智能体:连接研究与行动 ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。...

July 22, 2025 · 3 min · fisherdaddy

介绍一下阿里 Qwen 团队最新开源模型:Qwen3-235B-A22B-Instruct-2507

Qwen团队开源 Qwen3 系列模型的最新更新版本 Qwen3-235B-A22B-Instruct-2507。这是一个在非思考模式(non-thinking mode)下运行的大型语言模型,相较于前一版本,在多个核心能力上均有显著提升。 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代,官方也给出了原文是“我们将分别训练 Instruct 和 Thinking 模型,以获得最佳质量”。意思就是混合思考模型虽然可以既有instruct 模型的快思考,也有 Thinking 模型的深度思考,但无法达到垂类模型的最佳质量。 Qwen3-235B-A22B-Instruct-2507 模型的核心升级在于全面提升了其综合能力和用户对齐度。主要体现在以下几个方面: 通用能力增强:在指令遵循、逻辑推理、文本理解、数学、科学、代码生成和工具使用等基础能力上取得了显著进步。 知识覆盖更广:大幅提升了在多种语言下的长尾知识覆盖范围。 用户对齐更优:在主观性和开放式任务中能更好地符合用户偏好,生成更有帮助和更高质量的文本。 长上下文能力提升:增强了对 256K 超长上下文的理解能力。 模型规格 模型架构:该模型是一个拥有 235B 总参数和 22B 激活参数的因果语言模型(Causal Language Model),采用了专家混合(MoE)架构,包含 128 个专家,每次激活 8 个。 模型层数:共 94 层。 上下文长度:原生支持 262,144 (256K) tokens 的超长上下文。 运行模式:此模型仅支持非思考模式,输出中不会生成 <think></think> 标签。 性能表现 基准测试:在多个行业标准基准测试中,Qwen3-235B-A22B-Instruct-2507 的表现优于其前代模型,并在多个领域与 GPT-4o、Claude Opus 等顶级模型相当或更优。 突出领域:在推理能力测试(如 AIME25 得分 70.3,ZebraLogic 得分 95.0)和部分知识问答测试(如 CSimpleQA 得分 84.3)中表现尤为出色,显著超越了竞争对手。 使用与部署 快速上手:可通过最新版的 Hugging Face transformers 库轻松调用模型。 服务部署:推荐使用 sglang 或 vllm 等框架进行服务化部署,以获得最佳性能。 本地运行:支持 Ollama、LMStudio、llama....

July 22, 2025 · 1 min · fisherdaddy

AI 代理的上下文工程:构建 Manus 的经验教训 • Peak

本文是 Manus 首席科学家 季逸超 ‘Peak’ 在 2025 年 7 月 19 日发表的博客,主要介绍了 Manus 在构建 AI 代理过程中的一些经验教训,深入探讨了“上下文工程”的核心理念与方法。作者认为,对于现代 AI 代理而言,精心设计和管理上下文,比微调模型本身更为关键,它直接决定了代理的性能、成本和可扩展性。 主要观点 上下文工程优于模型微调:在产品快速迭代的背景下,依赖前沿大语言模型的上下文学习能力,通过“上下文工程”来构建 AI 代理,比耗时数周的模型微调更具优势。这使得产品能快速迭代,并与底层模型的进步保持同步。 上下文是代理行为的核心:代理的效率(速度和成本)、鲁棒性(错误恢复能力)和扩展性,最终都取决于上下文的构建方式。如何塑造记忆、环境和反馈,是决定代理智能水平的关键。 构建过程是实验科学:不存在一劳永逸的完美框架。构建高效的代理需要通过不断的实验、试错和迭代(作者称之为“随机研究生下降”),逐步找到最优的上下文管理策略。 关键细节 1. 围绕 KV 缓存进行设计 核心指标:KV-cache 命中率是影响代理延迟和成本的最重要指标。由于代理任务中输入与输出的 token 比例极高(Manus 中约为 100:1),有效利用缓存能带来巨大收益(成本可降低 10 倍)。 实践方法: 保持提示前缀稳定:避免在系统提示的开头加入时间戳等易变内容。 上下文只追加:避免修改历史记录,并确保 JSON 等格式的序列化顺序是确定的。 明确标记缓存断点:在必要时手动插入缓存标记,以优化缓存策略。 2. 工具管理:遮蔽而非移除 问题:在迭代过程中动态增删工具定义,会使 KV-cache 失效,并可能让模型对不再存在的工具感到困惑。 解决方案:使用“遮蔽”策略。通过上下文感知的状态机,在解码时约束模型的输出(logits),阻止或强制其选择特定工具,而不是从上下文中移除工具定义。例如,通过预填充回复来强制模型调用某个或某类工具。 3. 将文件系统作为外部上下文 挑战:即使有 128K 的上下文窗口,在处理网页、文档等大型观测数据时,也容易超出限制、导致性能下降且成本高昂。 解决方案:将文件系统视为一种无限大、可持久化的“终极上下文”。训练代理按需读写文件,将长期记忆和大型数据外部化存储。这种压缩是可恢复的(例如,保留 URL 而非网页全文),既能缩短上下文长度,又不会永久丢失信息。 4. 通过复述操控注意力 问题:在执行包含数十个步骤的复杂任务时,代理容易偏离最初目标(即“迷失在中间”问题)。 解决方案:通过刻意操控注意力来解决。Manus 会创建一个 todo.md 文件,并在任务过程中不断更新它。这种“复述”行为将全局计划推到上下文的末尾,使其处于模型近期注意力的焦点,从而保持任务目标的一致性。 5. 保留错误以促进学习 错误观念:许多开发者倾向于隐藏或擦除代理犯下的错误。 正确做法:将失败的尝试、错误信息和堆栈跟踪保留在上下文中。这为模型提供了宝贵的学习证据,使其能够隐式地更新内部认知,从而避免重复犯错。错误恢复是衡量真正代理能力的关键指标。 6. 避免少样本提示的陷阱 风险:如果上下文中充满了相似的成功案例(少样本示例),模型会倾向于模仿这些模式,即使当前情况已不适用,导致行为僵化或出错。 解决方案:在上下文中引入受控的多样性。通过在行动和观察的序列化模板、措辞或格式上引入微小变化,打破单一模式,帮助模型更好地泛化和适应。 原文: AI代理的上下文工程:构建Manus的经验教训 2025/7/18 – Yichao ‘Peak’ Ji...

July 21, 2025 · 1 min · fisherdaddy

Meta 超级智能团队全解析:44 位 AI 精英背景、专长与成就

为了实现 Meta 的“超级智能”项目,扎克伯格亲自上阵,忙了几个月,终于凑齐了 Meta Superintelligence Labs(MSL)。其中的每个人都是精英中的精英,年薪从千万到上亿美元不等,大部分人来自于 OpenAI(40%) 和 Google DeepMind(20%),中国人占比 50%。上周末社交平台上曝光了 MSL 团队 44 人的详细名单,我用 OpenAI DeepResearch 对其中的每个人进行了深度调研,以下是团队中每个人的基本背景、目前在 Meta 的职位,以及个人成就亮点。 纳特·弗里德曼(Nat Friedman,美国) 纳特·弗里德曼是 Meta 超级智能团队的联合负责人,现任 Meta 超级智能部门副总裁,负责推进 AI 产品和应用研究。他加入 Meta 刚满 18 天,但在技术行业拥有约 20+ 年的丰富经验(他早在1999年就创办了开发者平台公司 Ximian)。在当前职位之前,弗里德曼曾联合创立风险投资公司 NFDG,并担任 GitHub 首席执行官。他在开发者工具和开源生态领域造诣颇深,善于将前沿技术产品化。学术方面,他获得了麻省理工学院计算机科学学士学位。弗里德曼以敏锐的产品洞察力和丰富的创业经验,带领团队将研究成果转化为实际产品。 丹尼尔·格罗斯(Daniel Gross,以色列) 丹尼尔·格罗斯是团队的产品方向领导,加入 Meta 仅 18 天,拥有约 15 年的从业经验,现任 Meta 超级智能部门产品负责人。在此之前,他是 AI 创业公司 Safe Superintelligence 的联合创始人兼 CEO,并与弗里德曼共同创立了投资机构 NFDG。格罗斯年少成名,18 岁即进入创业孵化器 Y Combinator,此后一直专注于人工智能产品的创业和投资,对 AI 产品设计与用户需求有深刻理解。他没有传统的高等学历背景(年轻时即投身创业),但其作为创业者和投资人的经历使他成为引领 Meta AI 产品战略的理想人选。 扬·勒坤(Yann LeCun,法国) 扬·勒坤是深度学习领域的开拓者,现任 Meta 首席 AI 科学家兼副总裁,在 Meta 工作已逾 10 年(自 2013 年起领导 Facebook AI Research)。他在学术和工业界拥有超过 35 年的资深经验,是卷积神经网络和深度学习革命的奠基人之一。当前他在 Meta 超级智能团队中负责总体科研方向,把关最前沿的 AI 技术研发。同时,勒坤也是纽约大学的教授,长期从事机器学习研究培养人才【75†】。他的专长涵盖计算机视觉、深度学习和强化学习等领域,曾荣获图灵奖等诸多荣誉。学术方面,勒坤在巴黎皮埃尔和玛丽·居里大学获得计算机科学博士学位。他的加盟为团队带来了顶尖的科研洞见和经验。...

July 21, 2025 · 5 min · fisherdaddy

写作就是思考

本文的核心论点是 “写作即思考”。作者强调,科学写作不仅是发表研究成果的工具,更是一个至关重要的认知过程。它迫使研究者以结构化、有条理的方式整理思绪、提炼核心信息,并将多年的研究数据转化为一个有说服力的故事。因此,作者呼吁,尽管 LLMs 提供了便利,但科学界应继续重视由人类主导的写作过程,因为完全外包写作会剥夺研究者深入思考和创造性塑造其工作的宝贵机会。 关键细节 写作的认知价值 结构化思维: 写作能将大脑中混乱、非线性的思绪,转化为结构化、有逻辑的文字,从而帮助研究者理清思路,发现新的见解。 提炼核心信息: 通过写作,研究者可以将数年的研究、数据和分析整理成一个完整的故事,从而明确其工作的核心信息和影响力。 科学依据: 研究表明,书写行为(如手写)能促进大脑的广泛连接,并对学习和记忆产生积极影响。 LLMs 在写作中的局限与风险 缺乏责任主体: LLMs 无法为内容负责,因此不能被视为作者。完全由 LLM 生成的稿件不应被发表。 “幻觉” 风险: LLMs 可能会产生被称为 幻觉 的错误信息,甚至编造参考文献,因此其生成的内容必须经过人类的严格核查。 效率问题: 编辑和修正 LLM 生成的文本可能比从头开始写作更耗时,因为理解和修改其内在逻辑非常困难。 思想的替代: 如果文章完全由 LLM 撰写,读者读到的将是模型的“思考”,而非研究者本人的思想。 LLMs 作为辅助工具的潜力 提升语言质量: LLMs 可以帮助改善文章的可读性和语法,对非英语母语的研究者尤其有帮助。 辅助研究工作: 它们可用于搜索和总结大量科学文献。 激发创意: LLMs 可以提供要点、协助头脑风暴、克服写作障碍,甚至通过连接看似无关的主题来激发新想法。 原文 在大语言模型时代,论人类科学写作的价值。 撰写科学论文是科学研究方法不可或缺的一部分,也是交流研究成果的常规实践。然而,写作不仅仅是报告结果,它也提供了一种发掘新思想和新观点的工具。写作迫使我们以一种结构化、有目的的方式进行思考,而不是任由思绪天马行空、非线性地游荡。通过动笔写作,我们可以将多年的研究、数据和分析整理成一个完整的故事,从而明确我们工作的核心信息及其影响。这不仅仅是一种哲学观察,它有科学证据的支持。例如,手写可以促进大脑广泛的连接性1,并对学习和记忆产生积极影响。 此文旨在呼吁大家继续认识到人类撰写科学论文的重要性。 “此文旨在呼吁大家继续认识到人类撰写科学论文的重要性” 在大语言模型(LLM)时代,这一呼吁似乎有些不合时宜。只要有合适的提示,LLM就能在几分钟内生成完整的科学论文2(以及同行评审报告3),这似乎在研究工作完成后为成果发布节省了时间和精力。然而,由于LLM缺乏责任主体,它们不被视为作者。因此,我们不会考虑发表完全由LLM撰写的稿件(允许使用LLM进行文案编辑,但必须声明)。更重要的是,如果写作即思考,那么我们读到的难道不是LLM的‘思想’,而不是论文背后研究人员的思想吗? 目前的LLM也可能会出错,这种现象被称为“幻觉”4。因此,LLM生成的文本需要经过彻底的检查和验证(包括每一条参考文献,因为它可能是编造的5)。所以,目前的LLM究竟能节省多少时间仍是未知数。编辑一篇LLM生成的文本,可能比从零开始撰写一篇论文或同行评审报告更加困难和耗时,部分原因在于,你需要理解其背后的逻辑才能进行编辑。其中一些问题可能会通过仅在科学数据库上训练的LLM来解决,例如本期中刘凤麟(Fenglin Liu)及其团队的一篇综述文章所概述的那样。时间会证明一切。 这并不是说LLM不能成为科学写作中的宝贵工具。例如,LLM可以帮助提高文本的可读性和语法,这对于非英语母语者尤其有用。LLM在搜索和总结多样化的科学文献方面也可能很有价值6,它们可以提供要点,辅助进行头脑风暴。此外,LLM还有助于克服写作障碍,为研究发现提供替代性解释,或识别看似不相关的学科之间的联系,从而激发新想法。 尽管如此,将整个写作过程外包给LLM,可能会剥夺我们反思自己领域的机会,也让我们无法参与到将研究成果塑造成引人入胜的叙述这一创造性且至关重要的任务中——这项技能的重要性无疑超越了学术写作和出版本身。

July 21, 2025 · 1 min · fisherdaddy

我为何离开OpenAI?一位前员工对公司文化、代码和产品发布的深度反思

这篇文章是一位前员工在 OpenAI 工作一年后(2024年5月至2025年)的个人反思。作者分享了对公司文化、技术实践以及参与 Codex 项目发布的亲身经历,旨在提供一个内部视角,揭示这家快速发展的人工智能公司的真实面貌。 主要观点 独特的公司文化: OpenAI 拥有一个由研究驱动、自下而上、精英领导的文化。公司发展速度极快,鼓励主动性和快速迭代,但也因此面临着巨大的内部流程和沟通挑战。 高风险与高回报的环境: 公司在巨大的公众审视、激烈的行业竞争和构建通用人工智能 (AGI) 的宏大目标下运作,氛围严肃且充满紧迫感。尽管如此,员工普遍怀有“做正确的事”的使命感,致力于普惠人工智能技术。 雄心勃勃的战略布局: OpenAI 的目标远不止于 ChatGPT,它在 API、基础研究、硬件、图像生成等多个领域展开竞争,展现出惊人的雄心。 Codex 项目的成功冲刺: 作者将 Codex 编码助手的发布视为职业生涯的亮点。这个项目由一个精干的团队在 7 周内完成,体现了 OpenAI 仍然具备初创公司般的敏捷性和执行力。 对个人成长的巨大价值: 作者认为,在 OpenAI 的一年是其职业生涯中收获最丰富的时期之一,并建议处境不佳的创业者可以考虑加入大型 AI 实验室,以洞察技术前沿。 关键细节 公司文化与运营 高速增长: 在作者任职的一年里,公司规模从约 1,000 人增长到超过 3,000 人,导致许多原有流程失效,领导层角色也随之剧变。 沟通方式: 公司内部沟通完全依赖 Slack,几乎不使用电子邮件。 决策模式: 奉行“自下而上”的原则,好的想法可以来自任何地方,而非依赖宏大的“总体规划”。有能力提出并执行好想法的人会得到提拔。 行动至上: 鼓励员工“无需许可”便可启动项目。例如,在 Codex 正式立项前,内部已存在 3-4 个类似的原型。 高度保密: 由于受到外界密切关注,OpenAI 是一个非常神秘的地方,员工不能对外透露工作细节,收入等关键数据也受到严格保护。 安全焦点: 安全团队重点关注实际风险(如仇恨言论、滥用、生物武器制造等),而非理论风险(如智能爆炸)。 成本结构: GPU 的成本是公司最主要的支出,远超其他所有开销。 外部影响: Twitter 上的舆论对公司有显著影响,被戏称为“靠 Twitter 氛围运营”。 团队灵活性: 团队和人员可以被迅速调动以支持高优先级项目,无需等待季度规划等传统流程。 技术与代码 技术栈: 主要使用一个巨大的 Python monorepo(单一代码库),并辅以 Rust 和 Go 服务。所有服务都运行在 Azure 上,但主要依赖其少数几项核心服务。 人才来源: 大量工程人才来自 Meta,使得 OpenAI 的基础设施文化与早期的 Meta 有相似之处。 代码文化: “代码为王”,决策通常由执行工作的团队做出,这促进了行动力,但也导致了部分代码库的重复。 技术债: 快速扩张导致了一些技术问题,例如 CI(持续集成)频繁中断,测试运行时间过长等。 Codex 项目发布 开发周期: 从第一行代码到产品正式发布,仅用了 7 周时间。 工作强度: 团队为此进行了高强度冲刺,作者称之为近十年来工作最努力的一段时期。 产品理念: Codex 被设计为一个异步编程助手,用户可以像与同事协作一样,分配任务给它,然后等待它返回一个拉取请求 (PR)。 巨大影响力: 发布后的 53 天内,Codex 已生成了 630,000 个公开的 PR,展现了其强大的生产力。 行业竞争 三强争霸: 作者认为,通往 AGI 的道路目前是 OpenAI、Anthropic 和 Google 之间的三方竞赛,每家公司因其不同的基因(消费级 vs....

July 16, 2025 · 3 min · fisherdaddy

快速了解一下月之暗面开源的全球首个万亿参数级大模型 Kimi K2

Moonshot AI(「月之暗面」)在 2025 年 7 月 11 日正式发布并开源了旗下大模型 Kimi K2,并发布技术报告,让我们来快速了解一下。 关于 Kimi K2 的基本信息 Kimi K2 是个非推理模型,专注于文本和代码任务,不具备图像处理能力。 采用 MoE 架构,拥有总参数约 1T(1 万亿)、激活参数 32B 模型上下文 128K 词汇表大小 16K 模型包含 384 个专家,每个 token 会选择 8 个专家进行计算 支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等 训练方法:Kimi K2 在预训练阶段使用改进的 MuonClip 优化器替代传统 Adam,成功在 15.5T Token 规模的数据上进行稳定训练,且训练不稳定性为零,解决了万亿参数模型训练中的不稳定(如最大对数值爆炸)问题。 值得一提的是,K2 引入了一套大规模 Agentic 任务数据合成和强化学习训练流程:通过模拟数百个领域的工具((包括真实的 MCP 工具和合成工具))使用场景生成海量高质量训练数据,并让模型充当自己的评判员(自我反馈机制)进行通用强化学习。这些创新使 K2 在知识推理、数学和编程等任务上具备了出色的泛化能力和自主决策能力。 Kimi K2 系列提供两个主要版本: Kimi-K2-Base:基础模型,适合需要进行深度微调和定制化解决方案的研究者和开发者。 Kimi-K2-Instruct:指令微调模型,适用于通用的聊天和智能体应用场景,无需长时间思考即可快速响应。 Benchmark 成绩 Agent与编码能力 从各个评测集的结果来看,其 agent 能力 和编码能力与 Anthropic 的 Claude4 模型差距很小,而数学解题能力则优于 Claude 4 模型。...

July 14, 2025 · 2 min · fisherdaddy

别只盯着 Manus “跑路”,它超前的产品认知更值得关注

最近 Manus 团队国内裁员,总部搬至新加坡,国内也无法访问了。Manus 的爆火应该是今年 3 月份, 国内很多媒体称之为 DeepSeek R1 之后的另一国运级别的创新,但它的创新不是底层模型创新,而是产品创新。如果你仔细研究过 manus 这个产品,会发现其实它本质其实就是 OpenAI 的 DeepResearch,只是表现形式不同,做个不一定恰当的类似就是DeepSeek R1 之于 OpenAI o1。 一开始我也像很多人一样认为 manus 只是个套壳产品,但我深入使用这个产品之后,彻底否定了我的认知错误,它不是简简单单的套壳,而是一个超前的产品。 在 manus 出来之前,我一直没想清楚自动操作电脑或者手机这种技术有什么大规模的应用场景,除了黑灰产或者炫技,直到 manus 的出现让我 get 到这种技术的正确用法。不应该是 AI 控制你的电脑或手机,而是应该 AI 用自己的电脑或手机(虚拟机)帮我完成一些事情。这一点其实是 manus 团队的一个非常超前的认知: ➡️ AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器; ➡️ 操作 GUI 不是抢夺用户设备的控制权,而是让 AI 有自己的虚拟机; ➡️ 编写代码不是最终目的,而是解决各种问题的通用媒介; ➡️ Attention 不是 “all you need”,解放用户的 attention 才能 User’s Need;产品设计的核心不是争夺用户注意力,而是通过解放用户注意力来真正满足需求。 还有一个认知,我觉得特别棒:“当无法确保最终结果的绝对正确性时,必须尽可能透明地展示执行过程,并为用户提供干预的机会。” 还记得 DeepSeek R1 出来的时候大家非常喜欢,不是仅仅是因为结果非常惊艳,核心的原因是思考过程太像人类了。 我认为 manus 的成功是团队认知超前的结果(我一直信奉一句话:人只能挣到认知之内的钱)。AI 时代,只要你能提前预判几个月、半年或 1 年的趋势,并提前布局做出超预期的产品,你大概率会成功,manus 就是一个典型的例子,它提前预判和落地了 OpenAI DeepResearch 类似的产品,当然也有他们在浏览器研发上的积累有关。这里有点值得一提,manus 团队本来要做 AI 浏览器,类似于 Arc浏览器,但这个事由一个核心的问题不通:传统浏览器本质上是为单用户设计的交互工具。当 AI 开始执行任务时,用户只能被动等待,或者与 AI 争夺浏览器的控制权。...

July 13, 2025 · 1 min · fisherdaddy