Posts

我为何离开OpenAI？一位前员工对公司文化、代码和产品发布的深度反思

这篇文章是一位前员工在 OpenAI 工作一年后（2024年5月至2025年）的个人反思。作者分享了对公司文化、技术实践以及参与 Codex 项目发布的亲身经历，旨在提供一个内部视角，揭示这家快速发展的人工智能公司的真实面貌。主要观点独特的公司文化： OpenAI 拥有一个由研究驱动、自下而上、精英领导的文化。公司发展速度极快，鼓励主动性和快速迭代，但也因此面临着巨大的内部流程和沟通挑战。高风险与高回报的环境：公司在巨大的公众审视、激烈的行业竞争和构建通用人工智能 (AGI) 的宏大目标下运作，氛围严肃且充满紧迫感。尽管如此，员工普遍怀有“做正确的事”的使命感，致力于普惠人工智能技术。雄心勃勃的战略布局： OpenAI 的目标远不止于 ChatGPT，它在 API、基础研究、硬件、图像生成等多个领域展开竞争，展现出惊人的雄心。 Codex 项目的成功冲刺：作者将 Codex 编码助手的发布视为职业生涯的亮点。这个项目由一个精干的团队在 7 周内完成，体现了 OpenAI 仍然具备初创公司般的敏捷性和执行力。对个人成长的巨大价值：作者认为，在 OpenAI 的一年是其职业生涯中收获最丰富的时期之一，并建议处境不佳的创业者可以考虑加入大型 AI 实验室，以洞察技术前沿。关键细节公司文化与运营高速增长：在作者任职的一年里，公司规模从约 1,000 人增长到超过 3,000 人，导致许多原有流程失效，领导层角色也随之剧变。沟通方式：公司内部沟通完全依赖 Slack，几乎不使用电子邮件。决策模式：奉行“自下而上”的原则，好的想法可以来自任何地方，而非依赖宏大的“总体规划”。有能力提出并执行好想法的人会得到提拔。行动至上：鼓励员工“无需许可”便可启动项目。例如，在 Codex 正式立项前，内部已存在 3-4 个类似的原型。高度保密：由于受到外界密切关注，OpenAI 是一个非常神秘的地方，员工不能对外透露工作细节，收入等关键数据也受到严格保护。安全焦点：安全团队重点关注实际风险（如仇恨言论、滥用、生物武器制造等），而非理论风险（如智能爆炸）。成本结构： GPU 的成本是公司最主要的支出，远超其他所有开销。外部影响： Twitter 上的舆论对公司有显著影响，被戏称为“靠 Twitter 氛围运营”。团队灵活性：团队和人员可以被迅速调动以支持高优先级项目，无需等待季度规划等传统流程。技术与代码技术栈：主要使用一个巨大的 Python monorepo（单一代码库），并辅以 Rust 和 Go 服务。所有服务都运行在 Azure 上，但主要依赖其少数几项核心服务。人才来源：大量工程人才来自 Meta，使得 OpenAI 的基础设施文化与早期的 Meta 有相似之处。代码文化： “代码为王”，决策通常由执行工作的团队做出，这促进了行动力，但也导致了部分代码库的重复。技术债：快速扩张导致了一些技术问题，例如 CI（持续集成）频繁中断，测试运行时间过长等。 Codex 项目发布开发周期：从第一行代码到产品正式发布，仅用了 7 周时间。工作强度：团队为此进行了高强度冲刺，作者称之为近十年来工作最努力的一段时期。产品理念： Codex 被设计为一个异步编程助手，用户可以像与同事协作一样，分配任务给它，然后等待它返回一个拉取请求 (PR)。巨大影响力：发布后的 53 天内，Codex 已生成了 630,000 个公开的 PR，展现了其强大的生产力。行业竞争三强争霸：作者认为，通往 AGI 的道路目前是 OpenAI、Anthropic 和 Google 之间的三方竞赛，每家公司因其不同的基因（消费级 vs....

快速了解一下月之暗面开源的全球首个万亿参数级大模型 Kimi K2

Moonshot AI（「月之暗面」）在 2025 年 7 月 11 日正式发布并开源了旗下大模型 Kimi K2，并发布技术报告，让我们来快速了解一下。关于 Kimi K2 的基本信息 Kimi K2 是个非推理模型，专注于文本和代码任务，不具备图像处理能力。采用 MoE 架构，拥有总参数约 1T（1 万亿）、激活参数 32B 模型上下文 128K 词汇表大小 16K 模型包含 384 个专家，每个 token 会选择 8 个专家进行计算支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等训练方法：Kimi K2 在预训练阶段使用改进的 MuonClip 优化器替代传统 Adam，成功在 15.5T Token 规模的数据上进行稳定训练，且训练不稳定性为零，解决了万亿参数模型训练中的不稳定（如最大对数值爆炸）问题。值得一提的是，K2 引入了一套大规模 Agentic 任务数据合成和强化学习训练流程：通过模拟数百个领域的工具（（包括真实的 MCP 工具和合成工具））使用场景生成海量高质量训练数据，并让模型充当自己的评判员（自我反馈机制）进行通用强化学习。这些创新使 K2 在知识推理、数学和编程等任务上具备了出色的泛化能力和自主决策能力。 Kimi K2 系列提供两个主要版本： Kimi-K2-Base：基础模型，适合需要进行深度微调和定制化解决方案的研究者和开发者。 Kimi-K2-Instruct：指令微调模型，适用于通用的聊天和智能体应用场景，无需长时间思考即可快速响应。 Benchmark 成绩 Agent与编码能力从各个评测集的结果来看，其 agent 能力和编码能力与 Anthropic 的 Claude4 模型差距很小，而数学解题能力则优于 Claude 4 模型。...

别只盯着 Manus “跑路”，它超前的产品认知更值得关注

最近 Manus 团队国内裁员，总部搬至新加坡，国内也无法访问了。Manus 的爆火应该是今年 3 月份，国内很多媒体称之为 DeepSeek R1 之后的另一国运级别的创新，但它的创新不是底层模型创新，而是产品创新。如果你仔细研究过 manus 这个产品，会发现其实它本质其实就是 OpenAI 的 DeepResearch，只是表现形式不同，做个不一定恰当的类似就是DeepSeek R1 之于 OpenAI o1。一开始我也像很多人一样认为 manus 只是个套壳产品，但我深入使用这个产品之后，彻底否定了我的认知错误，它不是简简单单的套壳，而是一个超前的产品。在 manus 出来之前，我一直没想清楚自动操作电脑或者手机这种技术有什么大规模的应用场景，除了黑灰产或者炫技，直到 manus 的出现让我 get 到这种技术的正确用法。不应该是 AI 控制你的电脑或手机，而是应该 AI 用自己的电脑或手机（虚拟机）帮我完成一些事情。这一点其实是 manus 团队的一个非常超前的认知： ➡️ AI 浏览器不是在浏览器里加 AI，而是做给 AI 用的浏览器； ➡️ 操作 GUI 不是抢夺用户设备的控制权，而是让 AI 有自己的虚拟机； ➡️ 编写代码不是最终目的，而是解决各种问题的通用媒介； ➡️ Attention 不是 “all you need”，解放用户的 attention 才能 User’s Need；产品设计的核心不是争夺用户注意力，而是通过解放用户注意力来真正满足需求。还有一个认知，我觉得特别棒：“当无法确保最终结果的绝对正确性时，必须尽可能透明地展示执行过程，并为用户提供干预的机会。” 还记得 DeepSeek R1 出来的时候大家非常喜欢，不是仅仅是因为结果非常惊艳，核心的原因是思考过程太像人类了。我认为 manus 的成功是团队认知超前的结果（我一直信奉一句话：人只能挣到认知之内的钱）。AI 时代，只要你能提前预判几个月、半年或 1 年的趋势，并提前布局做出超预期的产品，你大概率会成功，manus 就是一个典型的例子，它提前预判和落地了 OpenAI DeepResearch 类似的产品，当然也有他们在浏览器研发上的积累有关。这里有点值得一提，manus 团队本来要做 AI 浏览器，类似于 Arc浏览器，但这个事由一个核心的问题不通：传统浏览器本质上是为单用户设计的交互工具。当 AI 开始执行任务时，用户只能被动等待，或者与 AI 争夺浏览器的控制权。...

Pieter Levels：一位程序员如何靠自己打造年入300万美元的“一人帝国”

本文来自于 Stripe 对 Pieter Levels 的访谈，他主要分享了如何以数字游牧者的身份建立成功的在线业务，对欧洲加速主义的看法，以及作为自力更生的创业者，年收入超过 300 万美元的非凡方法和理念。在科技圈，我们听惯了融了千万、上亿美元的宏大叙事，但 Pieter Levels 的故事却像一股清流，让人眼前一亮。他或许是这个时代最知名的“独立黑客”（Indie Hacker）和“数字游民”（Digital Nomad）。当大多数创业者都在追逐风险投资时，Pieter 独自一人，靠着一台笔记本电脑，在世界各地旅行，打造出了一个年收入超过300万美元的“一人帝国”。他的作品包括： Nomad List：一个帮助数字游民寻找生活和工作地点的社区，年经常性收入（ARR）达到70万美元。 Remote OK：一个远程工作招聘网站，至今已创造了340万美元的总收入。 Photo AI：一个AI写真生成工具，年经常性收入（ARR）达到60万美元。最让人惊讶的是，这一切的背后，没有团队，没有办公室，只有 Pieter Levels 本人。独立黑客 vs. VC模式：一场关于自由的抉择 Pieter 的创业哲学与硅谷的主流背道而驰。他坦言，在2013、14年他刚踏入这个圈子时，“独立开发”和“白手起家”（Bootstrapping）的概念还非常小众。当时的剧本几乎是固定的：找投资人、烧钱、快速扩张、招聘大量员工、租个大办公室。 “我最讨厌看到VC的钱被白白烧掉，”Pieter 说，“有些公司用户寥寥，却能融资几千万甚至上亿美元，纯粹靠炒作，然后就销声匿迹了。” 他认为，接受风险投资就像签下了一份“不成功便成仁”的契约。投资人期待的是独角兽，是百倍回报。这意味着，一家年收入1000万美元的公司在VC眼中可能是失败的，因为它没有成为10亿美金的巨头。“这太难了，成功的概率可能只有百分之几。很多人为此付出了20多岁时最宝贵的五到七年。” 而作为独立开发者，如果能做一家年入1000万美元的公司，哪怕只拥有1%的股份（这里他可能想说100%），那生活也会无比滋润。独立开发，意味着你可以自由定义“成功”，而不是被外界的期望所束缚。当然，他也承认，有些类型的公司，比如Stripe这样的金融基础设施，确实需要雄厚的资本。但他欣赏Stripe最初的成长方式——先写代码，找到付费客户，在看到增长势头后才逐步融资，这是一种有机的、健康的成长路径。从传真合同到AI自动化：一个人的生产力革命 Pieter的创业基因似乎很早就种下了。他回忆起12岁时，想在网上卖东西赚钱。他找到了一个叫WorldPay的支付服务商，打印出了一份厚厚的、来自美国的合同。他央求爸爸签字，爸爸读完整份合同后惊呆了：“这份合同让你对最高1亿美元的损失负责！” “不，老爸，你不懂，我必须在互联网上赚钱！”最终，他爸爸还是签了字，他们用传真机把合同发到了美国。虽然那个网站最终没卖出任何东西，但这段经历却成了他创业路上的一个有趣注脚。 Pieter 的成功，很大程度上源于他解决自身问题的热情。过去十年，他一直在旅行和工作，用代码为自己创造各种解决问题的小工具。大部分项目都无人问津，但总有那么几次，他恰好击中了很多人的痛点。他写了超过70个项目，而且很多“失败”的项目他都舍不得关掉，因为他想保留这些“互联网历史”。比如一个叫 GoFuckingDoIt.com 的网站，用户立下一个目标（比如戒烟），设定一个截止日期，并绑定信用卡。到期后，由他指定的朋友来评判是否完成。如果失败，信用卡就会被扣款。这个用PHP写的网站，十年没改过代码，至今每月还能带来50美元的收入。而如今，AI和自动化成了他维持“一人帝国”运转的秘密武器。以 Nomad List 为例，管理一个拥有4万名成员的社群聊天室曾经是“地狱般的体验”。各种争论和 drama 让他头疼不已，而且无论他怎么处理，都难免被指责偏袒某一方。现在，他用GPT-4来做社区管理。 “GPT是中立的。我写下社群规则，它会根据规则自动将违规的人禁言10分钟或一天，而不是直接封禁。我不需要雇人，也不需要自己去管理人际关系，这样我才能专心创造。” 这套自动化系统不仅解放了他，也让他的业务效率大幅提升。他注意到，在过去一个月里，来自ChatGPT的推荐流量暴涨了5倍，从占总流量的4%飙升到了20%，这对于讨厌做SEO的他来说，无疑是个巨大的福音。一个数字游民眼中的世界：旅行、投资与“欧洲加速主义” 在超过40个国家、150个城市生活过的经历，深刻地改变了Pieter。他鼓励每个人都去旅行，去看看完全不同的世界。 “当你离开自己的国家，你会发现世界比你想象的要安全得多。我在外十年，从未被抢过，唯一一次被入室盗窃还是在我的家乡。” 但他也坦诚，长期的漂泊生活曾让他“极度孤独”。你会失去与本土文化的连接，感觉自己像一个“脱了线的风筝”（untethered），需要花费数年时间，在心理上重建自己的根基。这种全球化的视角也体现在他的投资理念上。他像沃伦·巴菲特一样，推崇简单的指数基金投资，比如标普500。他批评欧洲人普遍存在的“本土偏好”（home country bias）——德国人买德国股票，荷兰人买荷兰皇家壳牌。在他看来，这是非常危险的资产集中。他对欧洲的现状有着更深刻的忧虑和激进的想法。他发起了“欧盟加速主义”（EU/ACC），希望唤醒欧洲的活力。 “欧洲有顶尖的人才，但他们被监管和政府的天花板压得喘不过气，”Pieter指出，“在欧洲，有一种奇怪的文化，认为商业是坏的，赚钱是可耻的。但在我看来，你银行账户里的钱，很大程度上代表了你为社会创造的价值。” 他认为欧洲正面临危机，而“永远不要浪费一场危机”。现在，越来越多欧洲人开始意识到问题所在，这正是变革的契机。他众包了一个“如何修复欧洲”的看板，收到了成千上万条建议，其中被顶得最高的一条就是：为新企业减轻监管负担。未来的路当被问及未来五年会是什么样子时，Pieter 并没有一个确切的答案。他可能会卖掉几个项目，甚至可能去尝试一下VC投资——他笑称自己最近已经开始做一些天使投资了，虽然每次都感觉自己像个“冒牌货”。 “你需要保持神经的灵活性（neuroflex），尝试不同的东西，”他说。但眼下，他很享受和女友一起旅行、生活、创造的状态。“我每天都对能过上这样的生活心存感激。” 从荷兰小镇那个渴望在网上赚钱的12岁少年，到今天这个环游世界、年入数百万美元的独立开发者，Pieter Levels 的故事告诉我们，通往成功的路不止一条。有时候，最简单、最忠于自己的那条，反而能带你走得更远。

Sam Altman YC AI 创业学校演讲：为什么说现在是创业“最好的时机

本文来自于OpenAI CEO & 创始人 Sam Altman 在 YC 举办的 AI 创业学校的演讲。 “我们决定，我们的目标是AGI（通用人工智能）。” 当Sam Altman和他的团队在近十年前做出这个决定时，“全世界99%的人都觉得我们疯了。”但正是这股疯狂的劲头，吸引了那相信未来的1%的顶尖人才，最终孕育出了改变世界的OpenAI。在最近的一次对话中，这位OpenAI的CEO分享了他一路走来的思考、对未来的大胆预测，以及给所有创业者的肺腑之言。他说，现在是“科技史上，最好的他妈的时机，句号，去创办一家公司。” 回顾起点：那个曾被99%的人认为是“疯了”的AGI梦今天回头看，OpenAI的成功似乎是板上钉钉的事。但Sam坦言，当初要不要做，其实是个“抛硬币”的决定。那是在2015年，整整一年，他们都在讨论这个想法。那时候的AI领域，氛围和现在天差地别。别提什么能流畅对话的语言模型了，当时最前沿的研究，不过是让AI玩玩电子游戏，或者让一个笨拙的机械手勉强还原魔方。AGI这个词听起来就像个不切实际的“白日梦”。摆在他们面前的，有无数个“不该做”的理由：想法太疯狂：AGI听起来完全是科幻小说的范畴。看起来不可能：当时行业巨头DeepMind遥遥领先，追赶似乎毫无希望。有更稳妥的选择：作为当时YC的总裁，Sam面前有大把看起来“会成功”的创业项目可以投入。 “要做成一件雄心勃勃的事，总会遇到这种情况，”Sam说，“它们看起来太难了，有太多好理由让你放弃。”最终，靠的是一小群核心成员，他们关在房间里，看着彼此的眼睛，下定决心：“好吧，就这么干了。” 这个看似微不足道的决定，成了后来一切的支点。特立独行：打造“独一无二”公司的秘密武器决定要做AGI后，一个意想不到的好处出现了：招人反而变容易了。 “如果你说，我们要干一件疯狂、刺激、一旦成功就意义重大的事，而且别人都没在干，你反而能把很多人聚拢起来。”Sam解释道。当他们喊出“进军AGI”的口号时，尽管99%的人觉得他们是傻子，但那1%真正被打动的人，恰恰是这个领域最聪明、最有激情的一群人。对他们来说，市面上几乎没有第二个地方可以去实现这样的梦想。于是，OpenAI成了顶尖人才的聚集地。这给了Sam一个深刻的启示：如果你做的事情和别人都一样，就很难汇聚顶尖人才，也很难让大家对使命产生真正的信仰。但如果你做的是一件“独一无二”的事，你就拥有了一股强大的顺风。当然，所有伟大的公司都不是一口吃成胖子的。OpenAI也是从一个只有8个人的小房间开始，后来变成20个人，大家围着白板，苦思冥想下一篇研究论文该写什么，前路一片迷茫。他引用了投资人Vinod Khosla的一句话，这句话完美诠-释了早期创业的精髓：“一个‘零百万美元’的创业公司和一个‘零十亿美元’的创业公司之间，有天壤之别。”虽然它们收入都是零，都是几个人挤在房间里想办法让第一个产品跑起来，但它们的潜力截然不同。给创业者的建议很简单：选择一个市场，在某个版本的未来里，它一旦成功，就能变得巨大无比。除此之外，剩下的就是“一步一个脚印，傻傻地坚持很长一段时间”。 AI创业的黄金时代：为什么说“现在就是最好的时机” 聊到当下，Sam的兴奋溢于言表。他认为，我们正处在一个非常有趣的时间点——模型能力和产品创新之间存在巨大的“断层”。 “模型的潜力已经在这里了（手举得很高），而人们想出来能做的产品还在这里（手放得很低）。” 这意味着，即便模型不再进步（当然，它们会进步），仅仅利用现有技术，就有海量的创新产品等待被创造。更何况：成本在暴跌：像GPT-4o这样的模型，成本在急剧下降，而且这个趋势会持续下去。开源模型将惊艳世人：Sam卖了个关子，但他透露OpenAI即将发布一款开源模型，其表现“会比你期望的好得多”，让人们在本地设备上运行强大模型成为可能。模型推理能力的飞跃、API成本的下降、强大的开源模型……这些因素组合在一起，就像是在元素周期表上发现了一个全新的、没人用过的元素。这是创业公司的巨大机会。 “这绝对是一个绝佳的时期，去创办一家公司，利用这个全新的‘物种’。” 从ChatGPT到“Her”：AI的未来是你的终极伙伴 AI将走向何方？Sam的构想让人想起了电影《Her》。他认为，今年推出的记忆（Memory）功能是他最喜欢的新功能，因为它指明了AI产品的未来方向：你会拥有一个真正了解你的实体，它连接你所有的数据，并且会主动帮助你。它不再是你问一句、它答一句的被动工具，而是会7x24小时在后台运行，观察你的生活，知道什么时候该给你发条信息，什么时候该替你办件事。这个“AI伙伴”将存在于你所有的设备、浏览器和你使用的每一项服务中，成为你生命中无处不在的助手。而这一切，将从记忆功能开始，逐步实现。为了实现这个愿景，未来的AI必须是：完全多模态的：它既能进行深度推理，也能实时生成视频，甚至在你需要时，即时为你编写一个全新的App。与物理世界结合的：当AI拥有了视觉、语音和推理能力后，下一步自然就是进入机器人体内。Sam甚至开玩笑说，他非常期待有一天，当你订阅最高档的ChatGPT套餐时，会免费送你一个家用机器人。发生在云端和本地的混合体：为了效率和成本，一部分计算会在本地设备上完成（OpenAI巴不得如此，因为他们的云端基础设施快要成为世界上最昂贵的了），而更强大的模型则会运行在云端。而要打造这种“融化掉”的、无缝的交互体验，需要顶尖的设计。这也是为什么他们会与苹果公司的传奇设计师Jony Ive合作。“如果你要赌一个人能搞定下一代人机交互，他就是那个最显而易见的人选。” 给开拓者的忠告：如何在这场变革中胜出面对如此迅猛的变革，许多创业者最大的疑问是：“我怎么才能不被OpenAI碾压？” Sam的回答很坦诚： 1. 关于“护城河”：别造我们的船，去发现你的新大陆 “我们不希望碾压你们。”Sam说，OpenAI会专注于把ChatGPT打造成最好的超级助理，但这只是冰山一角。他感到难过的是，太多人想做的只是“另一个版本的ChatGPT”。 “我们在这方面已经有很大的领先优势了。”他建议，创业者应该去寻找那些真正独特、没人做过的领域。历史证明，最持久的公司，往往不是在做和别人一样的事情。这会给你时间去打磨产品，建立真正的壁垒。 OpenAI自己也曾长期没有“护城河”，唯一的优势就是“市场上只有我们这一个能用的产品”。直到后来，品牌、记忆功能、生态连接等才构成了真正的防御。 2. 关于招聘：雇佣“斜率”，而不是“截距” 如何招到最优秀的人？Sam的标准非常清晰，而且和他早年在YC时一脉相承：关注核心特质：聪明、有驱动力、好奇、能自我激励、勤奋、能团队合作、方向一致。看重实际成果，而非履历：他从不看重求职者来自谷歌还是上了哪所名校，而是直接去看“你做过最牛逼的事情是什么？” 雇佣“斜率”，而不是“截距”：他引用了YC联合创始人Paul Buchheit的名言，意思是要看一个人的成长潜力（斜率），而不是他当下的成就（Y轴截距）。一个年轻、斗志昂扬、能搞定事情的人，远比一个履历光鲜但已僵化的大公司高管更有价值。 3....

吴恩达 YC AI 创业学校演讲：在 AI 时代，速度就是一切

本文来自于吴恩达（Andrew Ng）在 YC 举办的 AI 创业学校的演讲。如果你想在今天这个AI浪潮里做点什么，那你来对地方了。我叫吴恩达（Andrew Ng），在我的风险工作室AI Fund，我们就像一个高产的“创业工厂”，平均每个月就会孵化一家新的创业公司。我们不只是旁观者，而是亲自下场，和创业者一起写代码、聊客户、定价格、设计功能。在无数次的实战中，我们摸爬滚打，积累了一套关于如何在这个瞬息万变的AI时代快速打造成功企业的经验。今天，我想把这些滚烫的经验分享给你。核心就一个词：速度。对于创业公司来说，执行速度几乎是成功的头号预测指标。而好消息是，新的人工智能技术，正在让创业的速度快到超乎想象。最大的金矿在哪？别只盯着技术层在讨论如何“快”之前，我们先得看清地图。很多人问我，AI时代的机会到底在哪里？我们可以把AI想象成一个技术栈：底层是英伟达这样的半导体公司。往上是云计算平台。再往上是OpenAI这样的基础模型公司。最顶层，也是最重要的，是应用层。尽管媒体和公众的目光大多聚焦在下面几层技术上，但从逻辑上讲，最大的机会必然在应用层。说白了，应用层得赚够钱，才能养活下面一整条产业链。所以，如果你想创业，别被那些光鲜的技术名词迷惑，真正的金矿在应用里。最重要的技术趋势：Agentic AI正在改写规则过去一年，AI领域最激动人心的变化是什么？在我看来，是**智能体（Agentic AI）**的崛起。一年前，当我到处宣讲“AI Agent会是未来”时，很多人还觉得这概念很新鲜。没想到后来市场营销人员把“Agent”这个词当成了万能贴纸，到处乱用，反而让它有点失去了本来的意义。但从技术角度看，Agentic AI的价值是实实在在的。我们过去用大模型（LLM），就像让它写一篇文章，但有个苛刻的要求：不能打草稿，不能用退格键，必须从第一个字到最后一个字一气呵成。这太为难人了，对吧？AI也一样。尽管如此，LLM的表现已经很惊人了。而Agentic工作流则完全不同。它允许AI像人一样思考和工作：先列个大纲。如果需要，可以上网搜索资料。写出第一稿。自己阅读、批判、修改第一稿。循环往复，直到满意为止。这个过程虽然慢一些，但最终产出的质量天差地别。在AI Fund的很多项目里，无论是处理复杂的合规文件、进行医疗诊断，还是分析法律文书，Agentic工作流都是从“不可行”到“可行”的关键。这也为AI技术栈增加了一个新的层次：Agentic编排层（Agentic Orchestration Layer）。它帮助应用开发者协调对底层技术的多次调用，让构建强大的应用变得更加容易。创业第一课：抛弃“宏大愿景”，拥抱“具体想法” 在AI Fund，我们只做一件事：执行具体的想法（Concrete Ideas）。什么叫“具体”？就是你的想法足够清晰，清晰到工程师可以直接动手去实现。模糊的想法：“用AI优化医疗资源。”——这太空泛了，十个工程师会做出十个完全不同的东西，根本快不起来。具体的想法：“开发一个软件，让医院病人能在线预约核磁共振（MRI）的空闲时段，以提高设备使用率。”——不管这是不是个好主意，但它足够具体，工程师今天下午就能开工。模糊的想法特别有欺骗性。你跟朋友说“我要用AI改变医疗”，大家都会夸你“想法真棒！”。但实际上，这种无法执行的想法一文不值。模糊几乎总是对的，但具体才有可能创造价值，也可能让你犯错。犯错没关系，重要的是快速发现它。要找到好的具体想法，通常需要你或者某个领域的专家“在想法的迷宫里徜徉”很长时间。当你对一个领域思考得足够久、和足够多的用户聊过天之后，你的**直觉（Gut Feeling）**会变得异常敏锐。这时候，做决策（比如该做哪个功能）靠直觉，往往比费力地收集数据要快得多，也准得多。创业公司资源有限，不可能同时尝试十件事。最佳策略是：选定一个具体的假设，全力以赴去验证它。如果数据证明你错了，没关系，像U盘一样瞬间掉头（Pivot on the dime）。以同样的决心，去追逐下一个具体的想法。如果你发现每次和客户聊完天，都想彻底改变方向，那可能说明你对这个领域的了解还太少，需要找个更懂行的人来帮你找到那个更靠谱的“具体想法”。创业第二课：把代码当成草稿，大胆地写，大胆地扔打造产品的核心是一个循环：构建（Build）➡️ 获取反馈（Feedback）➡️ 迭代。过去，这个循环的瓶颈在“构建”环节，因为写代码很慢。但现在，AI编程助手彻底改变了游戏规则。我们写软件可以分为两种：快速原型（Quick and Dirty Prototypes）：为了测试一个想法。生产级软件（Production Software）：需要维护、稳定、安全的大型代码库。在维护生产级代码时，AI能让我们提速30%-50%。但在构建快速原型时，我们不是快了50%，而是快了至少10倍！...

快速了解一下 xAI 刚刚发布的 Grok 4 模型

2025 年 7 月 10 号马斯克旗下的 AI 公司 xAI 发布了史上最强模型 Grok 4，在所有评测集上碾压所有已发布模型，甚至在 AIME25 评测集上拿下了满分。关于 Grok 4 的基本信息 Grok 4 是一个推理模型，支持文本和图像输入，支持函数调用和结构化输出。 256K token 的上下文窗口。低于 Gemini 2.5 Pro 的 1M token 上下文窗口，但领先于 Claude 4 Sonnet 和 Claude 4 Opus（200K token）、o3（200K token）以及 R1 0528（128K token）。定价与 Grok 3 相当，为每百万输入/输出 token 3/15 美元（每百万缓存输入 token 0.75 美元）。其每 token 定价与 Claude 4 Sonnet 相同，但比 Gemini 2.5 Pro（输入 token 少于 20 万时，为 1.25/10 美元）和 o3（近期降价后，为 2/8 美元）更贵。每秒输出 75 个 token，慢于 o3（188 token/s）、Gemini 2....

如何将 AI 应用于你的初创企业 • YC

本文来自 YC 的一个分享：How To Use AI In Your Startup。大语言模型的进步持续呈指数级增长。那么，作为创业者，您应该如何抓住这一机遇呢？YC 的合伙人讨论了如果您考虑转型为 AI 或将其整合到您的业务中，应该考虑哪些因素。 AI创业浪潮已至，你的公司应该“随波逐流”吗？我们正经历一场新技术的冲击。人工智能，尤其是大语言模型，像当年的云计算和智能手机一样，正在悄悄改变很多行业。对创业者来说，这是机会，也是疑问：要不要把项目转向 AI？如果业务本身不是干这行的，是不是已经慢半拍？ Y Combinator 的合伙人 Brad、Pete、Gustav 和 Nicola 和上千位创始人聊过，他们发现：技术日新月异，可创业的底层逻辑没变。下面是他们在 AI 时代依旧管用的几条心得。 “转型 AI”是个伪命题？AI 早成了默认配置先说最常见的问题：我的公司要不要改做 AI？答案听上去矛盾：别因为 AI 很火就仓促改行，但几乎所有业务都值得用上大语言模型。关键在视角。别再问“要不要做一家 AI 公司”，这问题已经过时。今天的 AI 就像 2014 年的云。那会儿，没人会纠结“要不要用云”，用就对了。同理，现在不把 AI 用进产品或流程里，反而显得奇怪。拿一家 YC 投资的企业举例：他们的主营业务是管理业主协会（HOA）。听起来一点也不高科技，可他们在后台用大语言模型自动化了大批流程，效率飙升，却从不自称“AI 公司”。真正让他们拉开差距的，是那些悄悄运转的模型，而不是标签。所以，别只想着改名字、加两个 API，就想摆脱初创公司的生死线。重点是：AI 能不能帮你给客户创造看得见的价值。历史不会重复，但总押韵：AI 的“iPhone 时刻” 没赶上过上一波技术浪潮的人，很难体会当下的节奏。 2007 年，史蒂夫·乔布斯发布初代 iPhone。那时没人想得到几年后会发生什么。App Store 一年后才上线，重要权限又等了一年。可接下来的五年，足以催生一代移动互联网巨头。云计算也类似。Workday 的创始人曾在 PeopleSoft 工作，2000 年前后他断定：迟早有人用云把企业软件重做一遍，而且会做得更好，于是就有了 Workday。现在轮到 AI。用 AI 原生思路把现有软件重写一次，本身就是巨大机会。...

我不认为通用人工智能 (AGI) 即将到来 • Dwarkesh Patel

本文是 Dwarkesh Patel 在自己博客发表的一篇文章。Dwarkesh Patel 是一位印度裔美籍播客主持人、作家和知识传播者。他以深度访谈著称，特别聚焦于人工智能、历史、经济和科技等领域。通过自己的播客平台，他连接学术界与公众，促使复杂思想更易理解本文详细阐述了他对通用人工智能（AGI）发展时间表的看法。他认为，尽管当前的大语言模型（LLMs）能力令人印象深刻，但由于其存在根本性的能力缺陷，AGI 并不会在未来几年内迅速到来。然而，一旦这些关键瓶颈被突破，AI 的发展将迎来爆炸性增长。主要观点 AGI 不会很快到来：作者的核心论点是，AGI 不会在短期内（未来 2-5 年）实现，主要原因是当前模型缺乏**持续学习（continual learning）**的能力。持续学习是关键瓶颈：与人类可以通过反馈和实践不断改进不同，目前的 LLMs 无法在工作中积累经验和上下文。这使得它们难以真正替代人类员工执行复杂的、需要适应性的白领工作。短期谨慎，长期乐观：基于上述瓶颈，作者对 AI 在未来几年的经济变革潜力持谨慎态度。但他预测，一旦持续学习问题在未来十年内被解决，AI 的能力将发生“不连续的”巨大飞跃，引发一场“智能爆炸”，因为届时所有 AI 副本的学习成果可以被整合。 AGI 时间线呈对数正态分布：作者认为 AGI 很可能在本十年（2030 年前）实现，因为当前由计算资源驱动的指数级增长无法持续到 2030 年之后。如果错过了这个窗口期，后续进展将大幅放缓。关键细节当前 LLMs 的局限性：作者以个人使用 LLMs 协助播客后期制作的经验为例，指出即使在语言处理这类核心任务上，模型的表现也仅为 5/10。最大的问题是无法通过高级反馈让模型改进。用户只能不断调整提示词（prompt），但这远不及人类的学习和适应过程。作者用“教萨克斯风”作比喻：无法通过不断给新生写指示来教会他，而必须让他亲自练习和调整。因此，作者预测，如果 AI 发展从今天停滞，可能只有不到 25% 的白领工作会被取代。对“计算机使用代理”的怀疑：作者对“到 2026 年底将出现可靠的计算机使用代理（能自动完成报税等复杂任务）”的预测表示怀疑。理由包括：1) 此类任务的训练反馈周期长；2) 缺乏大规模的、用于计算机使用的多模态预训练数据；3) 即使是看似简单的算法创新（如 o1 模型的推理能力）也需要数年时间才能完善。作者的 50/50 时间线预测： 2028 年：AI 能够像一个能干的人类经理一样，端到端地处理一家小公司的报税工作。作者认为，目前 AI 在计算机使用领域的能力，相当于语言模型领域的 GPT-2 阶段。 2032 年：AI 能够像人类一样在工作中无缝、快速地学习。作者认为 7 年的时间足以在持续学习方面取得突破性进展。承认当前模型的强大之处：...

RAG 代理在生产环境中的应用：我们学到的 10 个经验教训 • Douwe Kiela

本文来自于 RAG 技术的开创者 Douwe Kiela 在 2025 AI 工程师峰会上的演讲：RAG 代理在生产环境中的应用：我们学到的 10 个经验教训。Douwe Kiela 是 Contextual AI 的首席执行官兼联合创始人。他还在斯坦福大学担任副教授。之前，他曾担任 Hugging Face 的研究主管以及 Meta 的基础 AI 研究 (FAIR) 团队的研究负责人，在那里他率先推出了检索增强生成 (RAG) 等其他关键的 AI 突破。他在多模态、对齐和评估方面的研究为 AI 领域树立了新的标准，并使系统更安全、更可靠和更准确。生成式AI的浪潮正以前所未有的力量席卷全球，麦肯锡预测它将为全球经济带来高达4.4万亿美元的增值。这是一个巨大的机遇，但现实却有些骨感：只有四分之一的企业真正从AI投资中获得了价值。为什么会这样？一边是无限的潜能，另一边却是普遍的挫败感。Contextual AI的CEO、同时也是RAG（Retrieval-Augmented Generation）技术的开创者Douwe Kiela认为，我们正面临一个**“上下文悖论” (Context Paradox)**。上下文悖论：AI时代的新挑战你可能听说过机器人领域的“莫拉维克悖论”（Moravec’s Paradox）：对人类来说困难的事情（如下棋），对计算机来说轻而易举；而对人类来说简单的事情（如打扫房间），对机器人来说却难如登天。如今，在企业AI领域，类似的悖论正在上演。大型语言模型（LLM）能写出比多数人类更优秀的代码，能解决复杂的数学问题，但在一个对人类来说几乎是本能的领域——理解和运用上下文——却步履维艰。人类专家可以轻而易举地利用多年的经验和直觉，将信息置于正确的场景中进行判断。而这，正是当前AI的短板，也是决定AI能否创造真正商业价值的关键。企业AI的价值路径，是从提供“便利性”的通用助手，走向创造“差异化价值”的业务转型。你走得越远，对上下文处理能力的要求就越高。那么，如何跨越这道鸿沟？Douwe Kiela结合他创办Contextual AI两年来，将RAG智能体 (RAG Agents) 推向生产环境的经验，分享了10条宝贵的实战教训。 1. 破除模型迷思：系统 > 模型当一个新的、更强大的语言模型发布时，整个行业都会为之沸腾。人们的注意力往往只集中在模型本身，却忽略了一个事实：在企业应用中，LLM通常只占整个系统的20%。真正解决问题的是一个完整的系统，而RAG是这个系统的核心组件。一个性能平平的模型，搭配一套卓越的RAG系统，其效果远胜于一个顶尖模型配上一套糟糕的RAG系统。核心教训：不要只盯着模型，要建立系统性思维。解决商业问题的，是系统，而非孤立的模型。 2. 别做万金油：专业化胜过通用人工智能 (AGI) 通用人工智能（AGI）的愿景固然激动人心，但在解决具体的企业问题时，专业化才是王道。企业的核心竞争力在于其日积月累的专业知识和行业洞见。通用模型很难企及内部专家的水平。与其追求一个“什么都懂一点”的通用模型，不如针对特定领域和用例进行深度优化和专业化训练。这样才能真正把企业的“专家知识”这个燃料库点燃。核心教训：聚焦专业化，让AI成为你所在领域的专家，而不是一个泛泛的通才。 3. 数据就是护城河：拥抱规模与噪音一家公司的本质是什么？是员工吗？不完全是，员工会流动。从长远看，公司的本质是其独有的数据。这些数据，构成了企业最坚实的护城河。...