介绍一下 OpenAI 推出的 ChatGPT Agent

2025 年 7 月 17日,OpenAI 发布 ChatGPT Agent 功能,这是一个统一的 Agent 系统,它能利用自己的虚拟计算机和多种工具,处理从数据分析、网络研究到任务执行的复杂工作流程。该功能融合了 OpenAI 年初发布的两个 Agent 功能: Operator 的网页交互能力和 DeepResearch 的深度分析能力,并引入了新工具,使其能够在一个统一的界面中完成更广泛、更复杂的任务。 关键细节 核心功能与工作方式 任务执行能力: 用户可以要求 ChatGPT agent 执行诸如“分析竞争对手并创建幻灯片”、“规划并预订旅行”或“根据最新新闻为我简报即将到来的客户会议”等复杂任务。 工具套件: 它配备了一套综合工具,包括可视化浏览器、文本浏览器、终端和 API 访问权限,使其能够智能地选择最高效的方式来完成任务。 协同工作流程: ChatGPT agent 支持与用户进行迭代式协作。它会在需要时主动向用户请求更多信息,用户也可以随时介入以澄清指令或调整任务方向。 性能与基准测试 业界顶尖表现: 在多个衡量真实世界任务能力的基准测试中,ChatGPT agent 的表现均达到了新的业界顶尖(SOTA)水平,显著优于之前的模型,在某些任务上甚至超过了人类专家。 具体数据: 在 Humanity’s Last Exam(专家级问题测试)中,得分达到 41.6%。 在 DSBench(数据科学任务)上,准确率达到 89.9%,显著超越人类表现。 在 BrowseComp(网络浏览信息定位)中,准确率达到 68.9%,比 deep research 高出 17.4 个百分点。 风险与安全措施 应对新风险: 该功能引入了新的风险,如处理敏感数据和防范“提示词注入”(prompt injection)攻击。 多层安全防护: 用户确认: 在进行购买等有实际影响的操作前,必须获得用户的明确许可。 主动监督: 发送邮件等关键任务需要用户在“观察模式”(Watch Mode)下进行监督。 风险规避: 模型被训练以主动拒绝银行转账等高风险请求。 生物安全: 由于能力增强,该模型被置于最高级别的生物安全防护之下。 可用性与当前限制 推出范围: 该功能已开始向 Pro、Plus 和 Team 用户推出,Pro 用户每月有 400 条消息的使用额度。其他付费用户每月有 40 条消息,额外用量可通过灵活的基于积分的选项获得。 功能局限: ChatGPT agent 仍处于早期阶段,有时可能会出错。 幻灯片生成功能尚处于 beta 测试阶段,生成的内容在格式和美观度上可能较为基础。 原文:推出 ChatGPT 智能体:连接研究与行动 ChatGPT 现已具备思考和行动的能力,能主动从一系列智能体技能中进行选择,使用其自己的计算机为您完成任务。...

July 22, 2025 · 3 min · fisherdaddy

AI 代理的上下文工程:构建 Manus 的经验教训 • Peak

本文是 Manus 首席科学家 季逸超 ‘Peak’ 在 2025 年 7 月 19 日发表的博客,主要介绍了 Manus 在构建 AI 代理过程中的一些经验教训,深入探讨了“上下文工程”的核心理念与方法。作者认为,对于现代 AI 代理而言,精心设计和管理上下文,比微调模型本身更为关键,它直接决定了代理的性能、成本和可扩展性。 主要观点 上下文工程优于模型微调:在产品快速迭代的背景下,依赖前沿大语言模型的上下文学习能力,通过“上下文工程”来构建 AI 代理,比耗时数周的模型微调更具优势。这使得产品能快速迭代,并与底层模型的进步保持同步。 上下文是代理行为的核心:代理的效率(速度和成本)、鲁棒性(错误恢复能力)和扩展性,最终都取决于上下文的构建方式。如何塑造记忆、环境和反馈,是决定代理智能水平的关键。 构建过程是实验科学:不存在一劳永逸的完美框架。构建高效的代理需要通过不断的实验、试错和迭代(作者称之为“随机研究生下降”),逐步找到最优的上下文管理策略。 关键细节 1. 围绕 KV 缓存进行设计 核心指标:KV-cache 命中率是影响代理延迟和成本的最重要指标。由于代理任务中输入与输出的 token 比例极高(Manus 中约为 100:1),有效利用缓存能带来巨大收益(成本可降低 10 倍)。 实践方法: 保持提示前缀稳定:避免在系统提示的开头加入时间戳等易变内容。 上下文只追加:避免修改历史记录,并确保 JSON 等格式的序列化顺序是确定的。 明确标记缓存断点:在必要时手动插入缓存标记,以优化缓存策略。 2. 工具管理:遮蔽而非移除 问题:在迭代过程中动态增删工具定义,会使 KV-cache 失效,并可能让模型对不再存在的工具感到困惑。 解决方案:使用“遮蔽”策略。通过上下文感知的状态机,在解码时约束模型的输出(logits),阻止或强制其选择特定工具,而不是从上下文中移除工具定义。例如,通过预填充回复来强制模型调用某个或某类工具。 3. 将文件系统作为外部上下文 挑战:即使有 128K 的上下文窗口,在处理网页、文档等大型观测数据时,也容易超出限制、导致性能下降且成本高昂。 解决方案:将文件系统视为一种无限大、可持久化的“终极上下文”。训练代理按需读写文件,将长期记忆和大型数据外部化存储。这种压缩是可恢复的(例如,保留 URL 而非网页全文),既能缩短上下文长度,又不会永久丢失信息。 4. 通过复述操控注意力 问题:在执行包含数十个步骤的复杂任务时,代理容易偏离最初目标(即“迷失在中间”问题)。 解决方案:通过刻意操控注意力来解决。Manus 会创建一个 todo.md 文件,并在任务过程中不断更新它。这种“复述”行为将全局计划推到上下文的末尾,使其处于模型近期注意力的焦点,从而保持任务目标的一致性。 5. 保留错误以促进学习 错误观念:许多开发者倾向于隐藏或擦除代理犯下的错误。 正确做法:将失败的尝试、错误信息和堆栈跟踪保留在上下文中。这为模型提供了宝贵的学习证据,使其能够隐式地更新内部认知,从而避免重复犯错。错误恢复是衡量真正代理能力的关键指标。 6. 避免少样本提示的陷阱 风险:如果上下文中充满了相似的成功案例(少样本示例),模型会倾向于模仿这些模式,即使当前情况已不适用,导致行为僵化或出错。 解决方案:在上下文中引入受控的多样性。通过在行动和观察的序列化模板、措辞或格式上引入微小变化,打破单一模式,帮助模型更好地泛化和适应。 原文: AI代理的上下文工程:构建Manus的经验教训 2025/7/18 – Yichao ‘Peak’ Ji...

July 21, 2025 · 1 min · fisherdaddy

Meta 超级智能团队全解析:44 位 AI 精英背景、专长与成就

为了实现 Meta 的“超级智能”项目,扎克伯格亲自上阵,忙了几个月,终于凑齐了 Meta Superintelligence Labs(MSL)。其中的每个人都是精英中的精英,年薪从千万到上亿美元不等,大部分人来自于 OpenAI(40%) 和 Google DeepMind(20%),中国人占比 50%。上周末社交平台上曝光了 MSL 团队 44 人的详细名单,我用 OpenAI DeepResearch 对其中的每个人进行了深度调研,以下是团队中每个人的基本背景、目前在 Meta 的职位,以及个人成就亮点。 纳特·弗里德曼(Nat Friedman,美国) 纳特·弗里德曼是 Meta 超级智能团队的联合负责人,现任 Meta 超级智能部门副总裁,负责推进 AI 产品和应用研究。他加入 Meta 刚满 18 天,但在技术行业拥有约 20+ 年的丰富经验(他早在1999年就创办了开发者平台公司 Ximian)。在当前职位之前,弗里德曼曾联合创立风险投资公司 NFDG,并担任 GitHub 首席执行官。他在开发者工具和开源生态领域造诣颇深,善于将前沿技术产品化。学术方面,他获得了麻省理工学院计算机科学学士学位。弗里德曼以敏锐的产品洞察力和丰富的创业经验,带领团队将研究成果转化为实际产品。 丹尼尔·格罗斯(Daniel Gross,以色列) 丹尼尔·格罗斯是团队的产品方向领导,加入 Meta 仅 18 天,拥有约 15 年的从业经验,现任 Meta 超级智能部门产品负责人。在此之前,他是 AI 创业公司 Safe Superintelligence 的联合创始人兼 CEO,并与弗里德曼共同创立了投资机构 NFDG。格罗斯年少成名,18 岁即进入创业孵化器 Y Combinator,此后一直专注于人工智能产品的创业和投资,对 AI 产品设计与用户需求有深刻理解。他没有传统的高等学历背景(年轻时即投身创业),但其作为创业者和投资人的经历使他成为引领 Meta AI 产品战略的理想人选。 扬·勒坤(Yann LeCun,法国) 扬·勒坤是深度学习领域的开拓者,现任 Meta 首席 AI 科学家兼副总裁,在 Meta 工作已逾 10 年(自 2013 年起领导 Facebook AI Research)。他在学术和工业界拥有超过 35 年的资深经验,是卷积神经网络和深度学习革命的奠基人之一。当前他在 Meta 超级智能团队中负责总体科研方向,把关最前沿的 AI 技术研发。同时,勒坤也是纽约大学的教授,长期从事机器学习研究培养人才【75†】。他的专长涵盖计算机视觉、深度学习和强化学习等领域,曾荣获图灵奖等诸多荣誉。学术方面,勒坤在巴黎皮埃尔和玛丽·居里大学获得计算机科学博士学位。他的加盟为团队带来了顶尖的科研洞见和经验。...

July 21, 2025 · 5 min · fisherdaddy

写作就是思考

本文的核心论点是 “写作即思考”。作者强调,科学写作不仅是发表研究成果的工具,更是一个至关重要的认知过程。它迫使研究者以结构化、有条理的方式整理思绪、提炼核心信息,并将多年的研究数据转化为一个有说服力的故事。因此,作者呼吁,尽管 LLMs 提供了便利,但科学界应继续重视由人类主导的写作过程,因为完全外包写作会剥夺研究者深入思考和创造性塑造其工作的宝贵机会。 关键细节 写作的认知价值 结构化思维: 写作能将大脑中混乱、非线性的思绪,转化为结构化、有逻辑的文字,从而帮助研究者理清思路,发现新的见解。 提炼核心信息: 通过写作,研究者可以将数年的研究、数据和分析整理成一个完整的故事,从而明确其工作的核心信息和影响力。 科学依据: 研究表明,书写行为(如手写)能促进大脑的广泛连接,并对学习和记忆产生积极影响。 LLMs 在写作中的局限与风险 缺乏责任主体: LLMs 无法为内容负责,因此不能被视为作者。完全由 LLM 生成的稿件不应被发表。 “幻觉” 风险: LLMs 可能会产生被称为 幻觉 的错误信息,甚至编造参考文献,因此其生成的内容必须经过人类的严格核查。 效率问题: 编辑和修正 LLM 生成的文本可能比从头开始写作更耗时,因为理解和修改其内在逻辑非常困难。 思想的替代: 如果文章完全由 LLM 撰写,读者读到的将是模型的“思考”,而非研究者本人的思想。 LLMs 作为辅助工具的潜力 提升语言质量: LLMs 可以帮助改善文章的可读性和语法,对非英语母语的研究者尤其有帮助。 辅助研究工作: 它们可用于搜索和总结大量科学文献。 激发创意: LLMs 可以提供要点、协助头脑风暴、克服写作障碍,甚至通过连接看似无关的主题来激发新想法。 原文 在大语言模型时代,论人类科学写作的价值。 撰写科学论文是科学研究方法不可或缺的一部分,也是交流研究成果的常规实践。然而,写作不仅仅是报告结果,它也提供了一种发掘新思想和新观点的工具。写作迫使我们以一种结构化、有目的的方式进行思考,而不是任由思绪天马行空、非线性地游荡。通过动笔写作,我们可以将多年的研究、数据和分析整理成一个完整的故事,从而明确我们工作的核心信息及其影响。这不仅仅是一种哲学观察,它有科学证据的支持。例如,手写可以促进大脑广泛的连接性1,并对学习和记忆产生积极影响。 此文旨在呼吁大家继续认识到人类撰写科学论文的重要性。 “此文旨在呼吁大家继续认识到人类撰写科学论文的重要性” 在大语言模型(LLM)时代,这一呼吁似乎有些不合时宜。只要有合适的提示,LLM就能在几分钟内生成完整的科学论文2(以及同行评审报告3),这似乎在研究工作完成后为成果发布节省了时间和精力。然而,由于LLM缺乏责任主体,它们不被视为作者。因此,我们不会考虑发表完全由LLM撰写的稿件(允许使用LLM进行文案编辑,但必须声明)。更重要的是,如果写作即思考,那么我们读到的难道不是LLM的‘思想’,而不是论文背后研究人员的思想吗? 目前的LLM也可能会出错,这种现象被称为“幻觉”4。因此,LLM生成的文本需要经过彻底的检查和验证(包括每一条参考文献,因为它可能是编造的5)。所以,目前的LLM究竟能节省多少时间仍是未知数。编辑一篇LLM生成的文本,可能比从零开始撰写一篇论文或同行评审报告更加困难和耗时,部分原因在于,你需要理解其背后的逻辑才能进行编辑。其中一些问题可能会通过仅在科学数据库上训练的LLM来解决,例如本期中刘凤麟(Fenglin Liu)及其团队的一篇综述文章所概述的那样。时间会证明一切。 这并不是说LLM不能成为科学写作中的宝贵工具。例如,LLM可以帮助提高文本的可读性和语法,这对于非英语母语者尤其有用。LLM在搜索和总结多样化的科学文献方面也可能很有价值6,它们可以提供要点,辅助进行头脑风暴。此外,LLM还有助于克服写作障碍,为研究发现提供替代性解释,或识别看似不相关的学科之间的联系,从而激发新想法。 尽管如此,将整个写作过程外包给LLM,可能会剥夺我们反思自己领域的机会,也让我们无法参与到将研究成果塑造成引人入胜的叙述这一创造性且至关重要的任务中——这项技能的重要性无疑超越了学术写作和出版本身。

July 21, 2025 · 1 min · fisherdaddy

我为何离开OpenAI?一位前员工对公司文化、代码和产品发布的深度反思

这篇文章是一位前员工在 OpenAI 工作一年后(2024年5月至2025年)的个人反思。作者分享了对公司文化、技术实践以及参与 Codex 项目发布的亲身经历,旨在提供一个内部视角,揭示这家快速发展的人工智能公司的真实面貌。 主要观点 独特的公司文化: OpenAI 拥有一个由研究驱动、自下而上、精英领导的文化。公司发展速度极快,鼓励主动性和快速迭代,但也因此面临着巨大的内部流程和沟通挑战。 高风险与高回报的环境: 公司在巨大的公众审视、激烈的行业竞争和构建通用人工智能 (AGI) 的宏大目标下运作,氛围严肃且充满紧迫感。尽管如此,员工普遍怀有“做正确的事”的使命感,致力于普惠人工智能技术。 雄心勃勃的战略布局: OpenAI 的目标远不止于 ChatGPT,它在 API、基础研究、硬件、图像生成等多个领域展开竞争,展现出惊人的雄心。 Codex 项目的成功冲刺: 作者将 Codex 编码助手的发布视为职业生涯的亮点。这个项目由一个精干的团队在 7 周内完成,体现了 OpenAI 仍然具备初创公司般的敏捷性和执行力。 对个人成长的巨大价值: 作者认为,在 OpenAI 的一年是其职业生涯中收获最丰富的时期之一,并建议处境不佳的创业者可以考虑加入大型 AI 实验室,以洞察技术前沿。 关键细节 公司文化与运营 高速增长: 在作者任职的一年里,公司规模从约 1,000 人增长到超过 3,000 人,导致许多原有流程失效,领导层角色也随之剧变。 沟通方式: 公司内部沟通完全依赖 Slack,几乎不使用电子邮件。 决策模式: 奉行“自下而上”的原则,好的想法可以来自任何地方,而非依赖宏大的“总体规划”。有能力提出并执行好想法的人会得到提拔。 行动至上: 鼓励员工“无需许可”便可启动项目。例如,在 Codex 正式立项前,内部已存在 3-4 个类似的原型。 高度保密: 由于受到外界密切关注,OpenAI 是一个非常神秘的地方,员工不能对外透露工作细节,收入等关键数据也受到严格保护。 安全焦点: 安全团队重点关注实际风险(如仇恨言论、滥用、生物武器制造等),而非理论风险(如智能爆炸)。 成本结构: GPU 的成本是公司最主要的支出,远超其他所有开销。 外部影响: Twitter 上的舆论对公司有显著影响,被戏称为“靠 Twitter 氛围运营”。 团队灵活性: 团队和人员可以被迅速调动以支持高优先级项目,无需等待季度规划等传统流程。 技术与代码 技术栈: 主要使用一个巨大的 Python monorepo(单一代码库),并辅以 Rust 和 Go 服务。所有服务都运行在 Azure 上,但主要依赖其少数几项核心服务。 人才来源: 大量工程人才来自 Meta,使得 OpenAI 的基础设施文化与早期的 Meta 有相似之处。 代码文化: “代码为王”,决策通常由执行工作的团队做出,这促进了行动力,但也导致了部分代码库的重复。 技术债: 快速扩张导致了一些技术问题,例如 CI(持续集成)频繁中断,测试运行时间过长等。 Codex 项目发布 开发周期: 从第一行代码到产品正式发布,仅用了 7 周时间。 工作强度: 团队为此进行了高强度冲刺,作者称之为近十年来工作最努力的一段时期。 产品理念: Codex 被设计为一个异步编程助手,用户可以像与同事协作一样,分配任务给它,然后等待它返回一个拉取请求 (PR)。 巨大影响力: 发布后的 53 天内,Codex 已生成了 630,000 个公开的 PR,展现了其强大的生产力。 行业竞争 三强争霸: 作者认为,通往 AGI 的道路目前是 OpenAI、Anthropic 和 Google 之间的三方竞赛,每家公司因其不同的基因(消费级 vs....

July 16, 2025 · 3 min · fisherdaddy

快速了解一下月之暗面开源的全球首个万亿参数级大模型 Kimi K2

Moonshot AI(「月之暗面」)在 2025 年 7 月 11 日正式发布并开源了旗下大模型 Kimi K2,并发布技术报告,让我们来快速了解一下。 关于 Kimi K2 的基本信息 Kimi K2 是个非推理模型,专注于文本和代码任务,不具备图像处理能力。 采用 MoE 架构,拥有总参数约 1T(1 万亿)、激活参数 32B 模型上下文 128K 词汇表大小 16K 模型包含 384 个专家,每个 token 会选择 8 个专家进行计算 支持 ToolCalls、JSON Mode、Partial Mode、联网搜索功能等 训练方法:Kimi K2 在预训练阶段使用改进的 MuonClip 优化器替代传统 Adam,成功在 15.5T Token 规模的数据上进行稳定训练,且训练不稳定性为零,解决了万亿参数模型训练中的不稳定(如最大对数值爆炸)问题。 值得一提的是,K2 引入了一套大规模 Agentic 任务数据合成和强化学习训练流程:通过模拟数百个领域的工具((包括真实的 MCP 工具和合成工具))使用场景生成海量高质量训练数据,并让模型充当自己的评判员(自我反馈机制)进行通用强化学习。这些创新使 K2 在知识推理、数学和编程等任务上具备了出色的泛化能力和自主决策能力。 Kimi K2 系列提供两个主要版本: Kimi-K2-Base:基础模型,适合需要进行深度微调和定制化解决方案的研究者和开发者。 Kimi-K2-Instruct:指令微调模型,适用于通用的聊天和智能体应用场景,无需长时间思考即可快速响应。 Benchmark 成绩 Agent与编码能力 从各个评测集的结果来看,其 agent 能力 和编码能力与 Anthropic 的 Claude4 模型差距很小,而数学解题能力则优于 Claude 4 模型。...

July 14, 2025 · 2 min · fisherdaddy

别只盯着 Manus “跑路”,它超前的产品认知更值得关注

最近 Manus 团队国内裁员,总部搬至新加坡,国内也无法访问了。Manus 的爆火应该是今年 3 月份, 国内很多媒体称之为 DeepSeek R1 之后的另一国运级别的创新,但它的创新不是底层模型创新,而是产品创新。如果你仔细研究过 manus 这个产品,会发现其实它本质其实就是 OpenAI 的 DeepResearch,只是表现形式不同,做个不一定恰当的类似就是DeepSeek R1 之于 OpenAI o1。 一开始我也像很多人一样认为 manus 只是个套壳产品,但我深入使用这个产品之后,彻底否定了我的认知错误,它不是简简单单的套壳,而是一个超前的产品。 在 manus 出来之前,我一直没想清楚自动操作电脑或者手机这种技术有什么大规模的应用场景,除了黑灰产或者炫技,直到 manus 的出现让我 get 到这种技术的正确用法。不应该是 AI 控制你的电脑或手机,而是应该 AI 用自己的电脑或手机(虚拟机)帮我完成一些事情。这一点其实是 manus 团队的一个非常超前的认知: ➡️ AI 浏览器不是在浏览器里加 AI,而是做给 AI 用的浏览器; ➡️ 操作 GUI 不是抢夺用户设备的控制权,而是让 AI 有自己的虚拟机; ➡️ 编写代码不是最终目的,而是解决各种问题的通用媒介; ➡️ Attention 不是 “all you need”,解放用户的 attention 才能 User’s Need;产品设计的核心不是争夺用户注意力,而是通过解放用户注意力来真正满足需求。 还有一个认知,我觉得特别棒:“当无法确保最终结果的绝对正确性时,必须尽可能透明地展示执行过程,并为用户提供干预的机会。” 还记得 DeepSeek R1 出来的时候大家非常喜欢,不是仅仅是因为结果非常惊艳,核心的原因是思考过程太像人类了。 我认为 manus 的成功是团队认知超前的结果(我一直信奉一句话:人只能挣到认知之内的钱)。AI 时代,只要你能提前预判几个月、半年或 1 年的趋势,并提前布局做出超预期的产品,你大概率会成功,manus 就是一个典型的例子,它提前预判和落地了 OpenAI DeepResearch 类似的产品,当然也有他们在浏览器研发上的积累有关。这里有点值得一提,manus 团队本来要做 AI 浏览器,类似于 Arc浏览器,但这个事由一个核心的问题不通:传统浏览器本质上是为单用户设计的交互工具。当 AI 开始执行任务时,用户只能被动等待,或者与 AI 争夺浏览器的控制权。...

July 13, 2025 · 1 min · fisherdaddy

Pieter Levels:一位程序员如何靠自己打造年入300万美元的“一人帝国”

本文来自于 Stripe 对 Pieter Levels 的访谈,他主要分享了如何以数字游牧者的身份建立成功的在线业务,对欧洲加速主义的看法,以及作为自力更生的创业者,年收入超过 300 万美元的非凡方法和理念。 在科技圈,我们听惯了融了千万、上亿美元的宏大叙事,但 Pieter Levels 的故事却像一股清流,让人眼前一亮。他或许是这个时代最知名的“独立黑客”(Indie Hacker)和“数字游民”(Digital Nomad)。当大多数创业者都在追逐风险投资时,Pieter 独自一人,靠着一台笔记本电脑,在世界各地旅行,打造出了一个年收入超过300万美元的“一人帝国”。 他的作品包括: Nomad List:一个帮助数字游民寻找生活和工作地点的社区,年经常性收入(ARR)达到70万美元。 Remote OK:一个远程工作招聘网站,至今已创造了340万美元的总收入。 Photo AI:一个AI写真生成工具,年经常性收入(ARR)达到60万美元。 最让人惊讶的是,这一切的背后,没有团队,没有办公室,只有 Pieter Levels 本人。 独立黑客 vs. VC模式:一场关于自由的抉择 Pieter 的创业哲学与硅谷的主流背道而驰。他坦言,在2013、14年他刚踏入这个圈子时,“独立开发”和“白手起家”(Bootstrapping)的概念还非常小众。当时的剧本几乎是固定的:找投资人、烧钱、快速扩张、招聘大量员工、租个大办公室。 “我最讨厌看到VC的钱被白白烧掉,”Pieter 说,“有些公司用户寥寥,却能融资几千万甚至上亿美元,纯粹靠炒作,然后就销声匿迹了。” 他认为,接受风险投资就像签下了一份“不成功便成仁”的契约。投资人期待的是独角兽,是百倍回报。这意味着,一家年收入1000万美元的公司在VC眼中可能是失败的,因为它没有成为10亿美金的巨头。“这太难了,成功的概率可能只有百分之几。很多人为此付出了20多岁时最宝贵的五到七年。” 而作为独立开发者,如果能做一家年入1000万美元的公司,哪怕只拥有1%的股份(这里他可能想说100%),那生活也会无比滋润。独立开发,意味着你可以自由定义“成功”,而不是被外界的期望所束缚。 当然,他也承认,有些类型的公司,比如Stripe这样的金融基础设施,确实需要雄厚的资本。但他欣赏Stripe最初的成长方式——先写代码,找到付费客户,在看到增长势头后才逐步融资,这是一种有机的、健康的成长路径。 从传真合同到AI自动化:一个人的生产力革命 Pieter的创业基因似乎很早就种下了。他回忆起12岁时,想在网上卖东西赚钱。他找到了一个叫WorldPay的支付服务商,打印出了一份厚厚的、来自美国的合同。他央求爸爸签字,爸爸读完整份合同后惊呆了:“这份合同让你对最高1亿美元的损失负责!” “不,老爸,你不懂,我必须在互联网上赚钱!”最终,他爸爸还是签了字,他们用传真机把合同发到了美国。虽然那个网站最终没卖出任何东西,但这段经历却成了他创业路上的一个有趣注脚。 Pieter 的成功,很大程度上源于他解决自身问题的热情。过去十年,他一直在旅行和工作,用代码为自己创造各种解决问题的小工具。大部分项目都无人问津,但总有那么几次,他恰好击中了很多人的痛点。 他写了超过70个项目,而且很多“失败”的项目他都舍不得关掉,因为他想保留这些“互联网历史”。比如一个叫 GoFuckingDoIt.com 的网站,用户立下一个目标(比如戒烟),设定一个截止日期,并绑定信用卡。到期后,由他指定的朋友来评判是否完成。如果失败,信用卡就会被扣款。这个用PHP写的网站,十年没改过代码,至今每月还能带来50美元的收入。 而如今,AI和自动化成了他维持“一人帝国”运转的秘密武器。 以 Nomad List 为例,管理一个拥有4万名成员的社群聊天室曾经是“地狱般的体验”。各种争论和 drama 让他头疼不已,而且无论他怎么处理,都难免被指责偏袒某一方。现在,他用GPT-4来做社区管理。 “GPT是中立的。我写下社群规则,它会根据规则自动将违规的人禁言10分钟或一天,而不是直接封禁。我不需要雇人,也不需要自己去管理人际关系,这样我才能专心创造。” 这套自动化系统不仅解放了他,也让他的业务效率大幅提升。他注意到,在过去一个月里,来自ChatGPT的推荐流量暴涨了5倍,从占总流量的4%飙升到了20%,这对于讨厌做SEO的他来说,无疑是个巨大的福音。 一个数字游民眼中的世界:旅行、投资与“欧洲加速主义” 在超过40个国家、150个城市生活过的经历,深刻地改变了Pieter。他鼓励每个人都去旅行,去看看完全不同的世界。 “当你离开自己的国家,你会发现世界比你想象的要安全得多。我在外十年,从未被抢过,唯一一次被入室盗窃还是在我的家乡。” 但他也坦诚,长期的漂泊生活曾让他“极度孤独”。你会失去与本土文化的连接,感觉自己像一个“脱了线的风筝”(untethered),需要花费数年时间,在心理上重建自己的根基。 这种全球化的视角也体现在他的投资理念上。他像沃伦·巴菲特一样,推崇简单的指数基金投资,比如标普500。他批评欧洲人普遍存在的“本土偏好”(home country bias)——德国人买德国股票,荷兰人买荷兰皇家壳牌。在他看来,这是非常危险的资产集中。 他对欧洲的现状有着更深刻的忧虑和激进的想法。他发起了“欧盟加速主义”(EU/ACC),希望唤醒欧洲的活力。 “欧洲有顶尖的人才,但他们被监管和政府的天花板压得喘不过气,”Pieter指出,“在欧洲,有一种奇怪的文化,认为商业是坏的,赚钱是可耻的。但在我看来,你银行账户里的钱,很大程度上代表了你为社会创造的价值。” 他认为欧洲正面临危机,而“永远不要浪费一场危机”。现在,越来越多欧洲人开始意识到问题所在,这正是变革的契机。他众包了一个“如何修复欧洲”的看板,收到了成千上万条建议,其中被顶得最高的一条就是:为新企业减轻监管负担。 未来的路 当被问及未来五年会是什么样子时,Pieter 并没有一个确切的答案。他可能会卖掉几个项目,甚至可能去尝试一下VC投资——他笑称自己最近已经开始做一些天使投资了,虽然每次都感觉自己像个“冒牌货”。 “你需要保持神经的灵活性(neuroflex),尝试不同的东西,”他说。但眼下,他很享受和女友一起旅行、生活、创造的状态。“我每天都对能过上这样的生活心存感激。” 从荷兰小镇那个渴望在网上赚钱的12岁少年,到今天这个环游世界、年入数百万美元的独立开发者,Pieter Levels 的故事告诉我们,通往成功的路不止一条。有时候,最简单、最忠于自己的那条,反而能带你走得更远。

July 12, 2025 · 1 min · fisherdaddy

Sam Altman YC AI 创业学校演讲:为什么说现在是创业“最好的时机

本文来自于OpenAI CEO & 创始人 Sam Altman 在 YC 举办的 AI 创业学校的演讲。 “我们决定,我们的目标是AGI(通用人工智能)。” 当Sam Altman和他的团队在近十年前做出这个决定时,“全世界99%的人都觉得我们疯了。”但正是这股疯狂的劲头,吸引了那相信未来的1%的顶尖人才,最终孕育出了改变世界的OpenAI。 在最近的一次对话中,这位OpenAI的CEO分享了他一路走来的思考、对未来的大胆预测,以及给所有创业者的肺腑之言。他说,现在是“科技史上,最好的他妈的时机,句号,去创办一家公司。” 回顾起点:那个曾被99%的人认为是“疯了”的AGI梦 今天回头看,OpenAI的成功似乎是板上钉钉的事。但Sam坦言,当初要不要做,其实是个“抛硬币”的决定。 那是在2015年,整整一年,他们都在讨论这个想法。那时候的AI领域,氛围和现在天差地别。别提什么能流畅对话的语言模型了,当时最前沿的研究,不过是让AI玩玩电子游戏,或者让一个笨拙的机械手勉强还原魔方。AGI这个词听起来就像个不切实际的“白日梦”。 摆在他们面前的,有无数个“不该做”的理由: 想法太疯狂:AGI听起来完全是科幻小说的范畴。 看起来不可能:当时行业巨头DeepMind遥遥领先,追赶似乎毫无希望。 有更稳妥的选择:作为当时YC的总裁,Sam面前有大把看起来“会成功”的创业项目可以投入。 “要做成一件雄心勃勃的事,总会遇到这种情况,”Sam说,“它们看起来太难了,有太多好理由让你放弃。”最终,靠的是一小群核心成员,他们关在房间里,看着彼此的眼睛,下定决心:“好吧,就这么干了。” 这个看似微不足道的决定,成了后来一切的支点。 特立独行:打造“独一无二”公司的秘密武器 决定要做AGI后,一个意想不到的好处出现了:招人反而变容易了。 “如果你说,我们要干一件疯狂、刺激、一旦成功就意义重大的事,而且别人都没在干,你反而能把很多人聚拢起来。”Sam解释道。 当他们喊出“进军AGI”的口号时,尽管99%的人觉得他们是傻子,但那1%真正被打动的人,恰恰是这个领域最聪明、最有激情的一群人。对他们来说,市面上几乎没有第二个地方可以去实现这样的梦想。于是,OpenAI成了顶尖人才的聚集地。 这给了Sam一个深刻的启示: 如果你做的事情和别人都一样,就很难汇聚顶尖人才,也很难让大家对使命产生真正的信仰。但如果你做的是一件“独一无二”的事,你就拥有了一股强大的顺风。 当然,所有伟大的公司都不是一口吃成胖子的。OpenAI也是从一个只有8个人的小房间开始,后来变成20个人,大家围着白板,苦思冥想下一篇研究论文该写什么,前路一片迷茫。 他引用了投资人Vinod Khosla的一句话,这句话完美诠-释了早期创业的精髓:“一个‘零百万美元’的创业公司和一个‘零十亿美元’的创业公司之间,有天壤之别。”虽然它们收入都是零,都是几个人挤在房间里想办法让第一个产品跑起来,但它们的潜力截然不同。 给创业者的建议很简单:选择一个市场,在某个版本的未来里,它一旦成功,就能变得巨大无比。 除此之外,剩下的就是“一步一个脚印,傻傻地坚持很长一段时间”。 AI创业的黄金时代:为什么说“现在就是最好的时机” 聊到当下,Sam的兴奋溢于言表。他认为,我们正处在一个非常有趣的时间点——模型能力和产品创新之间存在巨大的“断层”。 “模型的潜力已经在这里了(手举得很高),而人们想出来能做的产品还在这里(手放得很低)。” 这意味着,即便模型不再进步(当然,它们会进步),仅仅利用现有技术,就有海量的创新产品等待被创造。更何况: 成本在暴跌:像GPT-4o这样的模型,成本在急剧下降,而且这个趋势会持续下去。 开源模型将惊艳世人:Sam卖了个关子,但他透露OpenAI即将发布一款开源模型,其表现“会比你期望的好得多”,让人们在本地设备上运行强大模型成为可能。 模型推理能力的飞跃、API成本的下降、强大的开源模型……这些因素组合在一起,就像是在元素周期表上发现了一个全新的、没人用过的元素。这是创业公司的巨大机会。 “这绝对是一个绝佳的时期,去创办一家公司,利用这个全新的‘物种’。” 从ChatGPT到“Her”:AI的未来是你的终极伙伴 AI将走向何方?Sam的构想让人想起了电影《Her》。 他认为,今年推出的记忆(Memory)功能是他最喜欢的新功能,因为它指明了AI产品的未来方向: 你会拥有一个真正了解你的实体,它连接你所有的数据,并且会主动帮助你。它不再是你问一句、它答一句的被动工具,而是会7x24小时在后台运行,观察你的生活,知道什么时候该给你发条信息,什么时候该替你办件事。 这个“AI伙伴”将存在于你所有的设备、浏览器和你使用的每一项服务中,成为你生命中无处不在的助手。而这一切,将从记忆功能开始,逐步实现。 为了实现这个愿景,未来的AI必须是: 完全多模态的:它既能进行深度推理,也能实时生成视频,甚至在你需要时,即时为你编写一个全新的App。 与物理世界结合的:当AI拥有了视觉、语音和推理能力后,下一步自然就是进入机器人体内。Sam甚至开玩笑说,他非常期待有一天,当你订阅最高档的ChatGPT套餐时,会免费送你一个家用机器人。 发生在云端和本地的混合体:为了效率和成本,一部分计算会在本地设备上完成(OpenAI巴不得如此,因为他们的云端基础设施快要成为世界上最昂贵的了),而更强大的模型则会运行在云端。 而要打造这种“融化掉”的、无缝的交互体验,需要顶尖的设计。这也是为什么他们会与苹果公司的传奇设计师Jony Ive合作。“如果你要赌一个人能搞定下一代人机交互,他就是那个最显而易见的人选。” 给开拓者的忠告:如何在这场变革中胜出 面对如此迅猛的变革,许多创业者最大的疑问是:“我怎么才能不被OpenAI碾压?” Sam的回答很坦诚: 1. 关于“护城河”:别造我们的船,去发现你的新大陆 “我们不希望碾压你们。”Sam说,OpenAI会专注于把ChatGPT打造成最好的超级助理,但这只是冰山一角。他感到难过的是,太多人想做的只是“另一个版本的ChatGPT”。 “我们在这方面已经有很大的领先优势了。”他建议,创业者应该去寻找那些真正独特、没人做过的领域。 历史证明,最持久的公司,往往不是在做和别人一样的事情。这会给你时间去打磨产品,建立真正的壁垒。 OpenAI自己也曾长期没有“护城河”,唯一的优势就是“市场上只有我们这一个能用的产品”。直到后来,品牌、记忆功能、生态连接等才构成了真正的防御。 2. 关于招聘:雇佣“斜率”,而不是“截距” 如何招到最优秀的人?Sam的标准非常清晰,而且和他早年在YC时一脉相承: 关注核心特质:聪明、有驱动力、好奇、能自我激励、勤奋、能团队合作、方向一致。 看重实际成果,而非履历:他从不看重求职者来自谷歌还是上了哪所名校,而是直接去看“你做过最牛逼的事情是什么?” 雇佣“斜率”,而不是“截距”:他引用了YC联合创始人Paul Buchheit的名言,意思是要看一个人的成长潜力(斜率),而不是他当下的成就(Y轴截距)。一个年轻、斗志昂扬、能搞定事情的人,远比一个履历光鲜但已僵化的大公司高管更有价值。 3....

July 11, 2025 · 1 min · fisherdaddy

吴恩达 YC AI 创业学校演讲:在 AI 时代,速度就是一切

本文来自于吴恩达(Andrew Ng)在 YC 举办的 AI 创业学校的演讲。 如果你想在今天这个AI浪潮里做点什么,那你来对地方了。 我叫吴恩达(Andrew Ng),在我的风险工作室AI Fund,我们就像一个高产的“创业工厂”,平均每个月就会孵化一家新的创业公司。我们不只是旁观者,而是亲自下场,和创业者一起写代码、聊客户、定价格、设计功能。在无数次的实战中,我们摸爬滚打,积累了一套关于如何在这个瞬息万变的AI时代快速打造成功企业的经验。 今天,我想把这些滚烫的经验分享给你。核心就一个词:速度。 对于创业公司来说,执行速度几乎是成功的头号预测指标。而好消息是,新的人工智能技术,正在让创业的速度快到超乎想象。 最大的金矿在哪?别只盯着技术层 在讨论如何“快”之前,我们先得看清地图。很多人问我,AI时代的机会到底在哪里? 我们可以把AI想象成一个技术栈: 底层是英伟达这样的半导体公司。 往上是云计算平台。 再往上是OpenAI这样的基础模型公司。 最顶层,也是最重要的,是应用层。 尽管媒体和公众的目光大多聚焦在下面几层技术上,但从逻辑上讲,最大的机会必然在应用层。说白了,应用层得赚够钱,才能养活下面一整条产业链。所以,如果你想创业,别被那些光鲜的技术名词迷惑,真正的金矿在应用里。 最重要的技术趋势:Agentic AI正在改写规则 过去一年,AI领域最激动人心的变化是什么?在我看来,是**智能体(Agentic AI)**的崛起。 一年前,当我到处宣讲“AI Agent会是未来”时,很多人还觉得这概念很新鲜。没想到后来市场营销人员把“Agent”这个词当成了万能贴纸,到处乱用,反而让它有点失去了本来的意义。 但从技术角度看,Agentic AI的价值是实实在在的。 我们过去用大模型(LLM),就像让它写一篇文章,但有个苛刻的要求:不能打草稿,不能用退格键,必须从第一个字到最后一个字一气呵成。这太为难人了,对吧?AI也一样。尽管如此,LLM的表现已经很惊人了。 而Agentic工作流则完全不同。它允许AI像人一样思考和工作: 先列个大纲。 如果需要,可以上网搜索资料。 写出第一稿。 自己阅读、批判、修改第一稿。 循环往复,直到满意为止。 这个过程虽然慢一些,但最终产出的质量天差地别。在AI Fund的很多项目里,无论是处理复杂的合规文件、进行医疗诊断,还是分析法律文书,Agentic工作流都是从“不可行”到“可行”的关键。 这也为AI技术栈增加了一个新的层次:Agentic编排层(Agentic Orchestration Layer)。它帮助应用开发者协调对底层技术的多次调用,让构建强大的应用变得更加容易。 创业第一课:抛弃“宏大愿景”,拥抱“具体想法” 在AI Fund,我们只做一件事:执行具体的想法(Concrete Ideas)。 什么叫“具体”?就是你的想法足够清晰,清晰到工程师可以直接动手去实现。 模糊的想法:“用AI优化医疗资源。”——这太空泛了,十个工程师会做出十个完全不同的东西,根本快不起来。 具体的想法:“开发一个软件,让医院病人能在线预约核磁共振(MRI)的空闲时段,以提高设备使用率。”——不管这是不是个好主意,但它足够具体,工程师今天下午就能开工。 模糊的想法特别有欺骗性。你跟朋友说“我要用AI改变医疗”,大家都会夸你“想法真棒!”。但实际上,这种无法执行的想法一文不值。模糊几乎总是对的,但具体才有可能创造价值,也可能让你犯错。 犯错没关系,重要的是快速发现它。 要找到好的具体想法,通常需要你或者某个领域的专家“在想法的迷宫里徜徉”很长时间。当你对一个领域思考得足够久、和足够多的用户聊过天之后,你的**直觉(Gut Feeling)**会变得异常敏锐。这时候,做决策(比如该做哪个功能)靠直觉,往往比费力地收集数据要快得多,也准得多。 创业公司资源有限,不可能同时尝试十件事。最佳策略是: 选定一个具体的假设,全力以赴去验证它。 如果数据证明你错了,没关系,像U盘一样瞬间掉头(Pivot on the dime)。 以同样的决心,去追逐下一个具体的想法。 如果你发现每次和客户聊完天,都想彻底改变方向,那可能说明你对这个领域的了解还太少,需要找个更懂行的人来帮你找到那个更靠谱的“具体想法”。 创业第二课:把代码当成草稿,大胆地写,大胆地扔 打造产品的核心是一个循环:构建(Build)➡️ 获取反馈(Feedback)➡️ 迭代。 过去,这个循环的瓶颈在“构建”环节,因为写代码很慢。但现在,AI编程助手彻底改变了游戏规则。 我们写软件可以分为两种: 快速原型(Quick and Dirty Prototypes):为了测试一个想法。 生产级软件(Production Software):需要维护、稳定、安全的大型代码库。 在维护生产级代码时,AI能让我们提速30%-50%。但在构建快速原型时,我们不是快了50%,而是快了至少10倍!...

July 11, 2025 · 1 min · fisherdaddy