快速了解一下 Google 发布的 Gemini 3 Flash Preview

Google 在 2025 年 12 月 18 日发布了 Gemini 3 Flash Preview,这是一款专为开发者设计的新一代 AI 模型。它具备前沿的智能水平,旨在实现大规模生产应用。该模型的核心突破在于打破了以往在“速度”与“智能”之间必须做出妥协的局面,能够同时提供卓越的性能和极高的响应速度。 Gemini 3 Flash 在性能上超越了上一代的 Gemini 2.5 Pro,但其运行速度更快,且成本仅为 Gemini 3 Pro 的四分之一不到。凭借先进的视觉、空间推理能力以及代码执行功能,该模型适用于从编程辅助到游戏开发、深度伪造检测等多种复杂场景。 关键细节 性能与基准测试 超越前代:Gemini 3 Flash 在多项基准测试中表现优异,例如在博士级推理基准 GPQA Diamond 中得分达到 90.4%,超越了 Gemini 2.5 Pro。 速度提升:根据人工智能分析基准测试,该模型的速度是 Gemini 2.5 Pro 的 3 倍。 推理能力:具备最先进的视觉和空间推理能力,支持缩放、计数和编辑视觉输入。 定价与成本效率 极低成本:在 Gemini API 和 Vertex AI 中,输入价格为每百万 token 0.50 美元,输出为 3 美元。 成本节约机制:标配上下文缓存功能,在重复使用 token 的情况下可降低 90% 的成本;通过 Batch API 异步处理可节省 50% 的成本。 实际应用案例 编程开发:在 SWE-bench Verified 测试中达到 78% 的准确率,优于 Gemini 3 Pro 的代理编码技能。它已集成到 Google Antigravity 平台,支持快速迭代开发。 游戏领域:Latitude 使用该模型在其游戏引擎中生成更智能的角色和世界,实现了以往只有专业级模型才能达到的质量。 深度伪造检测:Resemble AI 利用该模型进行近乎实时的多模态分析,速度比 Gemini 2....

December 18, 2025 · 2 min · fisherdaddy

介绍一下 GPT-Image 1.5

OpenAI 于 2025 年 12 月 17 日发布了全新的旗舰级图像生成模型 GPT-Image 1.5。它能进行精准编辑,同时保持细节完好,并且生成图像的速度提升高达 4 倍。同时,在 ChatGPT 中推出了全新的 Images 功能,旨在让图像生成变得令人愉悦——激发灵感并使创意探索变得轻松自如。 全新的 Images 模型即日起向所有 ChatGPT 用户推出,并在 API 中以 GPT Image 1.5 的形式提供。ChatGPT 中的全新 Images 体验也于今日向大多数用户推出,Business 和 Enterprise 用户将在稍后获得访问权限。 精准编辑,保留重要细节 现在,当你要求对上传的图像进行编辑时,模型会更可靠地遵循你的意图——甚至包括细微之处——仅根据你的要求进行更改,同时保持光线、构图和人物外貌等元素在输入、输出和后续编辑中的一致性。 这开启了符合你意图的结果——更有用的照片编辑,更逼真的服装和发型试穿/试戴,以及保留原始图像精髓的风格滤镜和概念转换。总之,这些改进意味着 ChatGPT 可以充当你口袋里的创意工作室,既能进行实用编辑,又能进行富有表现力的重构。 编辑 该模型擅长各种类型的编辑——包括添加、删减、组合、混合和变换——因此你可以在获得想要的更改的同时,不丢失图像的独特之处。 从派对到直播洛杉矶滑板 将这两名男子和狗组合成一张 2000 年代胶片相机风格的照片,表现他们在孩子们的生日派对上看起来很无聊的样子。 在背景中添加混乱的孩子们,他们在扔东西和尖叫。 将左边的男子改为手绘复古动漫风格,将狗改为毛绒玩具风格,保持右边的男子和背景景物不变。 给他们都穿上看起来像这样的 OpenAI 毛衣。 现在移除这两名男子,只保留狗,并把它们放在一个看起来像附图的 OpenAI 直播中。 创意转换 模型的创造力通过转换得以闪耀,这些转换可以更改和添加元素——例如文本和布局——使想法变为现实,同时保留重要细节。这些转换既适用于简单的概念,也适用于更复杂的概念,并且可以使用全新 ChatGPT Images 功能中的预设风格和创意轻松尝试——无需书面提示词。 电影海报 80 年代健身教练 华丽玩偶 装饰品 时尚广告 装扮角色 绘画 饮料广告 用这两名男子的图像制作一张名为“codex”的老派好莱坞黄金时代电影海报。随意更改他们的服装以符合时代背景。 将演员的名字改为 Wojciech Zaremba(左)和 Greg Brockman(右) 由 Sam Altman 执导,Fidji Simo 制作。A Feel the AGI Pictures 出品。 指令遵循 该模型比我们的初始版本更可靠地遵循指令。这实现了更精准的编辑以及更复杂的原创构图,其中元素之间的关系按预期得以保留。...

December 17, 2025 · 5 min · fisherdaddy

Claude Code 创始人的大厂晋升心法与 AI 编程未来实录

本文整理自前 Meta 首席工程师、Claude Code 创造者 Boris Cherny 深度访谈。 你可能还没听过 Boris Cherny 这个名字,但如果你关注 AI 编程,你一定听说过 Claude Code。 Boris 是 Claude Code 的创造者,现在在 Anthropic 工作。在此之前,他在 Meta(Facebook)和 Instagram 摸爬滚打了多年,一路干到了 Principal Engineer(首席工程师/IC8 级别)。 从早期的 Facebook Groups 到 Instagram 的日本团队,再到如今在 Anthropic 重新定义编程方式,Boris 的职业生涯简直就是一本“工程师打怪升级指南”。 这不仅仅是关于写代码,更是关于如何在大厂里找到“潜需求”、如何用“旁门左道”的项目获得晋升,以及——在 AI 满天飞的今天,我们到底该怎么写代码? 一、 产品哲学的核心:寻找“潜需求” (Latent Demand) 如果问 Boris 做产品最重要的原则是什么,他会毫不犹豫地告诉你:潜需求。 什么意思?简单说就是:你永远没法让用户去做他们根本不想做的事。你只能发现他们已经在笨拙地尝试做的事,然后帮他们做得更顺滑。 他在 Facebook 时的几个成功项目都验证了这一点: Marketplace(二手交易市场): 他们发现 Facebook Groups 里居然有 40% 的帖子都是在买卖东西,尽管那个功能根本不是为此设计的。用户在“滥用”产品,这恰恰就是机会。 Facebook Dating: 数据显示,大量用户在查看非好友的異性主页。也是一种本来就存在的“潜需求”。 正如 Boris 所说:“找到用户的意图,然后给他们铺好路,别试图强行改变他们的行为。” 二、 大厂生存:跨部门协作与“Side Quests” 在大厂工作,常常像是在泥潭里跳舞。Boris 讲了一个他在 Facebook 做“Chats in Groups”项目时的噩梦。...

December 16, 2025 · 2 min · fisherdaddy

什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的

本文整理自 OpenAI Forum 发布的分享视频:Vibe Engineering with OpenAI’s Codex。 什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的 我们大概都经历过那种死线逼近的时刻,心里幻想着:“要是有个不知疲倦、不用睡觉的同事能帮我把这些代码写了该多好。” 在 OpenAI,Codex 就扮演着这个角色的。 最近在 OpenAI Forum 上,Global Affairs 团队的 Chris Nicholson 邀请了两位真正的“内行”——OpenAI 开发者体验负责人 Romain Huet 和技术专家 Aaron Friel,深入聊了聊一个最近很火的概念:Vibe Engineering(氛围工程)。 这不仅仅是一个流行词,它代表了软件开发的一种新范式:利用 AI 构建真正的生产级软件,同时让人类工程师对交付的每一行代码保持完全的掌控。 这不只是让 AI 吐出一堆代码然后祈祷它能跑通,而是把 AI 深度融入到设计、架构、调试甚至长周期的多步骤项目中。 今天,我们就来扒一扒 OpenAI 内部的工程师们究竟是怎么“生活”在未来的,以及作为普通开发者,我们可以怎么把这种工作流偷师过来。 从“Vibe Coding”到“Vibe Engineering” 你可能听说过“Vibe Coding”,通常指那种随意的、凭感觉的编程体验。但 Simon Willison 提出的“Vibe Engineering”是它的严肃版——它是 AI 驱动开发的进阶形态。 在这个形态下,大模型不再只是一个代码补全工具,它们变成了你的队友。 Romain Huet 分享了一个很有意思的观察:一年前,你会为了模型能写出一个贪吃蛇游戏或者 iPhone App demo 而兴奋。但现在,模型的能力已经进化到了可以处理长达数小时甚至数天的复杂任务。它们可以制定计划、做架构决策、编写测试,甚至自己检查自己的作业。 当 AI 学会了自我检查(Self-correction),它的表现就有了质的飞跃。这就是从“写代码”到“搞工程”的转变。 现场实战:把一个 Kotlin 项目重写为 Rust 光说不练假把式。Aaron Friel 在现场展示了一个非常硬核的 Demo,任务听起来就很让人头大:...

December 16, 2025 · 2 min · fisherdaddy

我逆向工程了 Claude 的记忆系统,这是我的发现!• Manthan Gupta

本文翻译自一位印度工程师在博客上发布的文章:I Reverse Engineered Claude’s Memory System, and Here’s What I Found!。作者通过逆向工程深入探究了 Claude 的记忆系统,并将其与 ChatGPT 进行了详细对比。文章揭示了两者在处理记忆和上下文时的根本性架构差异,特别是 Claude 独特的“按需检索”机制。 Claude 的提示词结构 Claude 的提示词主要由以下四个部分组成: 系统提示词(System Prompt):包含静态指令、工具定义和安全限制。 用户记忆(User Memories):类似于长期记忆。 对话历史(Conversation History):当前的对话上下文。 当前消息(Current Message):用户最新发送的内容。 用户记忆(User Memories) 内容:存储关于用户的稳定事实(如姓名、职位、偏好、技术水平等)。 格式:以 XML 格式注入提示词中。 更新机制:既包含后台的隐式更新,也支持用户通过“记住这个”或“删除这个”等指令进行的显式编辑。 对话历史的处理机制 这是 Claude 与 ChatGPT 最大的不同之处,主要由三种机制协同工作: 滚动窗口(Rolling Window):针对当前对话,保留完整的消息内容(而非摘要),直到达到 Token 限制(约 190k tokens)。 conversation_search 工具:允许 Claude 根据主题或关键词搜索过去的对话。 recent_chats 工具:允许 Claude 根据时间检索最近的对话。 总结性对比 ChatGPT:依赖预计算的摘要,每次对话都自动注入,确保了轻量级的连续性,但细节较少。 Claude:依赖 conversation_search 和 recent_chats 等工具进行按需检索。这种方式更高效(不浪费 Token 在无关历史上)且更具深度,但流程上可能不如 ChatGPT 无缝,因为其依赖于模型的检索决策。 我逆向工程了 Claude 的记忆系统,这是我的发现! 2025年12月14日 · Manthan Gupta...

December 16, 2025 · 3 min · fisherdaddy

我们如何利用 Codex 在 28 天内构建出 Sora Android 版 • OpenAI

本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内,利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量,还深入探讨了在 AI 辅助开发时代,软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。 我们如何利用 Codex 在 28 天内构建出 Sora Android 版 作者:Patrick Hum 和 RJ Marsan,技术团队成员 11 月,我们向全球推出了 Sora Android 应用,让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天,该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。 在这次发布背后有一个故事:Sora 的 Android 生产级初始版本仅用 28 天就构建完成,这要归功于任何团队或开发者都可以使用的同一个智能体(agent):Codex。 从 2025 年 10 月 8 日到 11 月 5 日,一个精简的工程团队与 Codex 并肩工作,消耗了大约 50 亿个 token,完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大,该应用仍保持了 99....

December 15, 2025 · 2 min · fisherdaddy

快速了解一下 OpenAI 发布的 GPT-5.2

2025 年 12 月 12 日 OpenAI 发布了迄今为止最强大的GPT-5.2 模型,该系列专为提升专业知识型工作的效率和经济价值而设计,在制作电子表格、编写代码、设计演示文稿及处理复杂多步骤项目方面表现出显著优势。 卓越的工作效率与质量 在衡量明确知识型工作任务的 GDPval 评测中, GPT-5.2 刷新了行业水平,成为首个在相关任务上达到或超过人类专家水平的模型。 专家级表现:在涵盖 44 个职业的 GDPval 评测中, GPT-5.2 Thinking 在 70.9% 的任务中表现优于顶尖行业专家或与其持平。 极致效能:在上述任务中,模型的输出速度比专家快 11 倍以上,而成本不到专家的 1%。 办公自动化:在生成复杂的电子表格和幻灯片方面,能力较前代提升了 9.3%,格式和布局更具专业水准。 编程与工程能力的飞跃 软件工程基准:在模拟真实工业场景的 SWE-bench Pro 测试中取得了 55.6% 的新成绩;在 SWE-bench Verified 中达到了 80% 的高分。 全栈开发助手:在前端开发、复杂 UI(特别是涉及 3D 元素)以及代码调试和重构方面表现更强,减少了人工干预的需求。 可靠性、长文本与视觉能力 错误率降低:相比 GPT-5.1 Thinking,新模型的幻觉率更低,错误回答减少了 38%。 长文档处理:在长达 256k Token 的文本范围内(如 MRCRv2 评测),能保持接近 100% 的信息提取准确率,适合深度文档分析。 视觉理解:在图表推理和软件界面理解方面的错误率减半,对图像元素的空间位置有更强的感知能力。 科研推进与复杂推理 科学研究: GPT-5.2 Pro 在研究生级问答测试 GPQA Diamond 中得分 93.2%,并已在实际数学研究中协助解决了统计学习理论的开放问题。 通用推理:在 ARC-AGI-1 测试中, GPT-5....

December 12, 2025 · 3 min · fisherdaddy

告别演讲:亚马逊 CTO Werner Vogels 谈 AI 时代的“文艺复兴式开发者”

本文整理自Werner Vogels 在 AWS re:Invent 的最后一次主题演讲。在 Gemini 3 Pro 的帮助下,我把本次演讲中最核心的内容转成了一篇精彩的文章,以下为文章内容。 如果要用一个词来形容今年的 AWS re:Invent,那一定是“转折”。 这不仅仅是因为 AI 正在重塑我们的行业,更因为那个穿了 12 年 T 恤、在台上跑来跑去的亚马逊 CTO —— Werner Vogels 宣布,这是他最后一次在 re:Invent 发表主题演讲了。 别慌,他不是要离开亚马逊。他只是觉得,在这个风起云涌的时代,该把舞台留给更多年轻、鲜活的声音了。 但在这最后的谢幕演讲中,Werner 没有煽情,而是非常硬核地回答了那个悬在所有程序员头顶的达摩克利斯之剑:“AI 会抢走我的饭碗吗?” 答案是:绝不。前提是,你得进化。 我们正在步入一个新的“文艺复兴”时期,作为开发者,我们需要一套全新的生存哲学。 房间里的大象:AI 与我们的未来 我们先来聊聊那个“房间里的大象”。无论是在非洲、拉美还是亚洲,Werner 到访每一个城市时,大家都在问同一个问题:AI 会让我失业吗? 让我们换个角度问:AI 会让我变得过时(Obsolete)吗? 回想一下历史。当你还在学校里学 Pascal 和 COBOL 的时候,编译器出现了,汇编语言似乎不再那么重要了;后来有了结构化编程,有了面向对象,有了 Cloud……每一次工具的进化,都伴随着开发者角色的转变。 现在,即使有了像 Cursor 或 AWS 自家的 Q 这样的 AI 编程助手,它们依然无法拿走只有你才能做的事情。 这是你的工作,不是工具的工作。 我们正处于一个像历史上“文艺复兴”一样的时刻——艺术、科学、工程正在以前所未有的速度融合。为了在这个新时代生存并从一个单纯的“码农”进化为不可替代的构建者,Werner 提出了一个全新的框架:“文艺复兴式开发者”(The Renaissance Developer)。 这个框架包含五个核心特质。 1. 永不满足的好奇心 (Be Curious) 你是怎么学会编程的?是不是通过写出满是 Bug 的代码,然后盯着报错信息抓耳挠腮学会的? 学习新东西最快的方法,就是失败。 就像 Da Vinci 设计过永远飞不起来的飞机模型一样,只有愿意失败,才能真正学习。Werner 提到他在学外语时的体会:你背再多语法书也没用,真正的学习发生在当你跌跌撞撞地开口说话,然后被别人温和地纠正时。...

December 12, 2025 · 2 min · fisherdaddy

蔡崇信港大演讲实录 2025:中国AI并没有输,底牌是电力与开源

本文整理自蔡崇信在香港大学的演讲。在 Gemini 3 Pro 的帮助下,我把本次演讲中最核心的内容转成了一篇精彩的文章,以下为文章内容。 这几天香港大学最热闹的地方非陆佑堂莫属。不是因为有什么明星演唱会,而是阿里巴巴现任主席、也是曾经的“幕后英雄”蔡崇信(Joe Tsai)来了。 这是港大“陈坤耀杰出学人讲座”的现场,在这个有着历史沉淀的礼堂里,Joe 并没有照本宣科地念稿子,而是和港大经管学院副院长邓希炜教授来了一场非常实诚的“炉边谈话”。从NBA聊到阿里发家史,再到那个甚至有点敏感的话题——中美AI竞赛,中国到底能不能赢? 整场对话干货很多,逻辑很硬。我把其中最核心的观点嚼碎了整理出来,咱们聊聊这位顶级商界大脑是怎么看未来的。 一、 篮球:不只是生意,是最好的外交 咱们先不说冷冰冰的商业。大家都知道 Joe 是布鲁克林篮网队的老板,前阵子他还把球队带到了澳门打比赛。 对此 Joe 的态度特别坦诚:NBA 想回中国,中国也需要 NBA。这确实是一门好生意,毕竟中国有全球最大的篮球迷群体。但更重要的是,体育是一种不需要翻译的语言。 他特别提到了自己正在做的一个公益项目:每年挑选几位中国初二的学生,全额资助他们去美国读高中、打篮球。这不仅是为了培养下一个姚明,更是为了让美国的孩子看到真实的中国同龄人,也让中国孩子去体验外面的世界。这种“人与人”的连接,在这个地缘政治紧张的时代,比什么公关都管用。 二、 阿里“变形记”:活下来的秘密只有一条 回想 1999 年,中国的人均 GDP 只有 800 美元,现在是 13,000 美元。蔡崇信说他很幸运,刚好站在了中国制造业崛起和互联网爆发的交汇点上。 有人问阿里的“秘方”是什么?怎么能从一个简单的 B2B 网站,变出淘宝、支付宝,再变成现在的阿里云和 AI 巨头? Joe 的回答简单得让人意外:不要为了收购而收购,要为了解决客户痛点去就要自己造。 淘宝是为了解决什么? 是为了帮那些刚加入 WTO 的中国工厂和商家把货卖出去。 支付宝是怎么来的? 买家怕付了钱不发货,卖家怕发了货不给钱。为了解决“信任”危机,阿里才搞了个担保交易,这就是支付宝的前身。 为什么要搞云计算? 这是一个“逼上梁山”的故事。16 年前没人在乎云,但阿里数据量太大了。当时的 CTO 算了一笔账:如果不自己搞技术,继续买 Oracle、IBM 的设备,以后阿里赚的钱全得进这些美国公司的口袋。所以,阿里云最初是为了“自救”,是为了技术自主。 他说了一个给创业者的建议:凡是核心能力,尽量自己从内部长出来(Organic Growth),别总想着靠买别人的公司来拼凑。 自己的团队,才有那个 DNA。 三、 别被“产能过剩”忽悠了,这是中国的王牌 聊到宏观经济,Joe 的观点非常犀利。 现在外面有很多声音批评中国“产能过剩”(Overcapacity),试图向全球倾销。Joe 觉得这说法挺双标的。德国汽车出口全世界的时候,有人说德国产能过剩吗?没有。 所谓的“过剩”,本质上就是国内吃不下,通过出口换取外汇,再反哺国内经济。这不但不是坏事,反而是国家变富的必经之路。中国在新五年的规划里明确了要继续做强制造业,只不过这次不是做衬衫鞋子,而是电动车、电池、太阳能板。通过高端制造积累财富,老百姓腰包鼓了,消费自然就上来了。 他甚至给了一个惊人的数据:在淘宝上,年消费超过 6000 美元(约 4 万多人民币)的用户已经有 5600 万人。这个基数已经很大了,消费潜力就在那里。...

December 11, 2025 · 1 min · fisherdaddy

朱啸虎:2025年没有AI泡沫,只有更残酷的“入口之战”

本文整理自2025 年底张小珺对朱啸虎(金沙江创投主管合伙人)的最新访谈。朱啸虎是一个非常有意思的投资人,每次访谈中抛出的观点都非常的犀利且具有前瞻性。对于 AI 我们既要仰望星空,也要脚踏实地,如果说萨姆奥特曼和梁文锋是在仰望星空,目标是实现 AGI,而朱啸虎就是那个最佳脚踏实地的人。在 Gemini 3 Pro 的帮助下,我把本次采访中最核心的内容转成了一篇精彩的文章,以下为文章内容。 最近很多人都在问同一个问题:站在2025年的门槛上,AI是不是已经有泡沫了? 对此,我的回答很干脆:至少三年内,我看不到泡沫。 当菜市场的大妈都在聊泡沫的时候,泡沫肯定还没破;当大家都还是像现在这样将信将疑、甚至二级市场还在故意回调吓唬人的时候,这反而是进场的好时机。 为什么这么笃定?看数据。现在不仅是OpenAI,中国很多并不知名的创业公司,每天的Token消耗量都在几百亿的级别。这种十几倍的爆发式增长,说明应用端是真的有人在用,而且用的量极大。 这就是为什么这甚至不能被称为泡沫,我们现在的算力、GPU卡甚至电力都已经跟不上需求的爆发了。 在这场近46分钟的深度复盘中,我想和大家分享一下这一年来我的观察,以及在这个“如果不搞现实主义就要饿死”的当下,创业者该如何在巨头的夹缝中求生。 一、 Sam Altman 变现实了:AGI是梦,DAU才是命 今年最大的变化,就是大家越来越“现实”了。 你看OpenAI的Sam Altman,今年几乎不怎么提AGI(通用人工智能)那种宏大叙事了。为什么?因为AGI太难了,那个饼画得太远。现在的OpenAI像极了一个成熟的VC投资人做出来的公司——务实。 ChatGPT最近的动作非常清晰:做Search(搜索)、做Canvas(浏览器)、甚至推出了群聊功能。这一连串动作背后的逻辑只有一个:从周活(WAU)向日活(DAU)转型。 纯粹的AI对话很容易变成一种“周活”甚至“月活”工具(这也是为什么像Kimi这类产品其实很难防守),只有切入高频场景,哪怕是做个群聊里的“点赞氛围组”,也是在争夺流量入口。 OpenAI现在的野心不是取代人类,而是想成为下一个超级入口(Super App)。一旦群聊生态建立,它下一步就是要重构社交关系链。这才是Meta(Facebook)最害怕的事情。 所以,这不再是模型之争,而是类似当年移动互联网时代的微信、WhatsApp之争。 二、 中国市场的“六小龙”与“扫地僧” 回到国内,格局还处于早期,但我非常看好字节跳动(豆包)。他们的流量优势太明显,产品体验打磨得也极好。阿里的通义千问虽然动作稍微慢了点,在“既要电商又要AI”的双线作战中有点纠结,但底子很厚,模型能力绝对处于第一梯队。 这里必须要特别提一下DeepSeek(深度求索)。 如果在2024年初你问我,我也许还看不准,但现在回看,DeepSeek简直是中国AI界的“功臣”。如果没有他们的开源,人类的AI技术很可能就被几家美国私有公司垄断了。DeepSeek的存在,不仅让中国建立了独立的开源生态,也倒逼了模型价格的快速下降。 虽然这对做模型的商业化公司来说是个噩耗——当Token价格被大厂(如字节火山引擎、阿里云)打到地板价,甚至“送”的时候,创业公司靠卖API基本没戏了。 但对做应用的人来说,这简直是黄金时代。 三、 投资逻辑:偏离“共识”15度 现在的VC圈很卷,美国和中国的投资人都在盯着同样的几个赛道(比如人形机器人)。当一个赛道所有人都看明白、都想投的时候,我就不碰了。 我的策略是**“偏离共识15度”**。你要找那些大厂看不上、不想干、或者还没反应过来的“脏活累活”。 这一年我投了十几家公司,有些非常有意思: 不投人形机器人,投“牛马机器人”:大家都在卷那个双足行走的人形机器人,太贵且没场景。我投什么?海里洗船的机器人。这活儿人类干着危险,海水浑浊又腐蚀,但需求是刚性的;我还投了按摩机器人,不仅能按得舒服,还能一边按一边陪你聊天,甚至给你推销办卡,性价比极高。 AI陪伴与玩具:这是一个被严重低估的市场。成年人,特别是男性,其实非常需要情绪价值。我们投的一家AI陪伴公司,不到半年数据就爆了,用户粘性和付费意愿高得吓人。 垂直SaaS出海:不需要一定要做大模型,拿一个开源的7B或30B小模型,做私有化部署,去解决一个极度垂直的问题。比如我们投的给第三方做智能穿戴解决方案的公司,生意好得不得了。 四、 给创业者的忠告:活在夹缝里 如果你是创业者,现在不要再跟我讲什么“中国版OpenAI”或者“千亿美金”的故事了。讲这种宏大叙事的,我一般聊10分钟就结束了。 现在的机会在“夹缝”里。 当年的移动互联网,大厂看不上打车(滴滴)、看不上送外卖(美团/饿了么),所以给了创业者几年“猥琐发育”的时间。 但AI时代不同,大厂太焦虑了,反应速度极快。你做一个功能,如果是纯工具(比如修图、润色),大厂的模型升级一次你就没了。 生存法则: 离大厂三条马路:不要做大厂主业延伸线上的东西,要做大厂觉得苦、脏、累,或者数据极其封闭垂直的领域。 不要迷信SOTA(State Of The Art):现在的创业公司去刷榜、去搞模型排名没有任何意义。你花几千万美金训练出来的模型,可能也就领先大厂一个月。对于绝大多数应用场景,一个低成本的、响应快的开源小模型完全够用。 一定要有商业化能力:不要想着先烧钱再赚钱。今天的资本市场环境,如果你不能证明你的造血能力,不管是港股上市还是后续融资,都会非常困难。 五、 未来推演:2026年,中国有机会 如果不确定性是唯一的确定性,那么只有把时间拉长来看才清晰。 短期看,美国在模型层面的确还领先3-6个月。但是限制美国AI发展的最大瓶颈即将到来——电力和基础设施。 美国的电网建设、核电站审批极其缓慢。而中国在光伏、核电以及数据中心建设上的执行力是惊人的。未来拼的不是谁的模型参数大,而是谁能更便宜、更稳定地提供大规模算力。 我相信,凭借中国的开源生态和基础设施优势,三五年后,中国的AI应用完全有机会反超美国。 所以,别管那个所谓“泡沫”的争论了。对于中国创业者来说,现在的策略应该非常简单直接: 别想大故事,找到那个缝隙,全速前进。这是属于实干家的时代。

December 11, 2025 · 1 min · fisherdaddy