Stay hungry, Stay foolish

👋 Welcome to fisherdaddy’s blog!

    1. 精心翻译的优质博客内容
    1. 前沿技术分享
    1. 认知分享

📚 博客内容:

    1. 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
    1. 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
    1. 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。

如何使用 Nnano banana 进行图像生成以获得最佳结果 • Google

本文翻译自 Google 官方提供的 nano banana 教程。 Gemini 2.5 Flash Image 是我们最新、最快、最高效的原生多模态模型。Gemini 2.5 Flash 的独特之处在于其原生的多模态架构。它从头开始进行训练,能够以单一、统一的步骤处理文本和图像。这使得它能够实现超越简单图像生成的强大功能,例如对话式编辑、多图像合成和对图像内容的逻辑推理。 以下是您可以执行的关键操作: 文本到图像: 从简单或复杂的文本描述中生成高质量的图像。 图像 + 文本到图像(编辑): 提供一张图像,并使用文本提示添加、删除或修改元素、更改风格或调整颜色。 多图像到图像(合成和风格迁移): 使用多个输入图像来合成新场景或将一种图像的风格迁移到另一种图像。 迭代优化: 通过对话,在多个回合中逐步优化您的图像,进行微小的调整。 文本渲染: 生成包含清晰且位置得当的文本的图像,非常适合徽标、图表和海报。 本指南将教您如何编写提示和提供说明,以从 Gemini 2.5 Flash 获得更好的结果。这一切都始于一个基本原则: 描述场景,而不仅仅是列出关键字。 模型的最大优势在于其深厚的语言理解能力。一个叙事性、描述性的段落几乎总是能产生比简单的单词列表更好、更连贯的图像。 您可以通过以下方式进行尝试:使用官方文档中的代码,或直接在Google AI Studio中开始创建。 从文本创建图像 生成图像最常见的方式是描述您想要看到的内容。 1. 照片级真实感场景 对于逼真的图像,请像摄影师一样思考。提及相机角度、镜头类型、灯光和细节将有助于模型获得照片级真实感的效果。 模板: 一张照片级真实的 [拍摄类型] 的 [主体],[动作或表情],发生在 [环境]。场景由 [灯光描述] 照明,营造出 [氛围] 的氛围。使用 [相机/镜头细节] 拍摄,强调 [关键纹理和细节]。图像应为 [纵横比] 格式。 示例提示: 一张照片级真实的特写肖像,描绘一位年长的日本陶瓷艺术家,脸上刻满了深深的、被太阳晒过的皱纹,带着温暖而了然的微笑。他正在仔细检查一个刚上釉的茶碗。场景设定在他的乡村、被阳光沐浴的工作室里。柔和的黄金时刻光线透过窗户照射进来,突出了粘土的细腻纹理。使用 85 毫米人像镜头拍摄,产生了柔和、模糊的背景(散景)。整体氛围宁静而精湛。垂直肖像方向。 示例输出: 一张照片级真实的特写肖像,描绘一位年长的日本陶瓷艺术家…… 2. 风格化插画和贴纸 要创建贴纸、图标或项目资产,请明确说明风格,如果您需要白色背景,请记住要求。 模板: 一个 [风格] 的贴纸,描绘一个 [主体],具有 [关键特征] 和 [配色方案]。设计应具有 [线条风格] 和 [着色风格]。背景必须为白色。...

September 3, 2025 · 2 min · fisherdaddy

GPT-5 最佳编码实践

GPT-5 在编码方面能力很强,但对 Prompt的编写有一定的要求,以下是 OpenAI 总裁 Greg Brockman 也认可的最佳编码实践。 虽然强大的 GPT-5 可以应对不同的编程模式,但也有一些技巧能帮助你从 API 或编程工具中获得最大收益。 1. 避免冲突信息 新版 GPT-5 模型在遵循指令方面有显著提升,但如果指令模糊或包含冲突信息,仍可能导致副作用。例如,避免在 .cursor/rules 或 AGENTS.md 文件中出现冲突指令。 2. 运用正确的推理力 GPT-5 总是会进行某种程度的推理来解决问题。为了获得最佳结果,请对最复杂的任务使用高推理力。如果你发现模型过度思考简单问题,请调低推理力,选择中等或低等级别。 3. 使用 XML 语法来组织指令 结合 Cursor,我们发现 GPT-5 在使用类似 XML 的语法来提供更多上下文时效果更好。例如,你可以遵循以下模型编程指南: <code_editing_rules> <guiding_principles> - 每个组件都应该是模块化和可重用 - ... </guiding_principles> <frontend_stack_defaults> - Styling:TailwindCSS </frontend_stack_defaults> </code_editing_rules> 4. 避免过度使用硬性语言 与其他模型一样,你可能习惯使用硬性语言,例如: 在收集信息时彻底。 确保你在回复前已掌握全貌。 对于 GPT-5,这些指令可能会适得其反,因为模型可能会过度遵循,导致不自然。例如,它可能会过度使用工具调用来获取上下文。 5. 为规划和自我反思留出空间 如果你正在创建从零到一的应用,给模型指令以进行自我反思可以提供帮助。 <self_reflection> - 首先,花点时间思考一下要使用的评估标准。 - 然后,清晰地思考关于一键式 Web 应用程序的每个方面,你需要创建一个评估标准,其中有 5-7 个类别。这个标准很难做到完全正确,但不要直接展示给用户。这是为了你自己的目的。 - 最后,使用这个评估标准,以最好的方式思考并迭代,来响应所提供的提示。如果你对自己的回应没有达到评估标准中的最高分,你需要再次开始。 </self_reflection> 6....

September 2, 2025 · 1 min · fisherdaddy

快速了解一下火爆全球的最强图像模型:nano-banana!并附 20+ 种玩法和教程

Google 大概几周之前就在 LMArena 上测试了 nano-banana,并很快受到社区的热捧,核心原因图像一致性保持的能力过于强大,一会会给大家一些例子来展示一下。Google 于 2025 年 8 月 26 日正式发布该模型,学名叫 Gemini 2.5 Flash Image。这个模型强大的有以下几点: 非常强大的角色一致性的保持 它可以将同一个角色放置在不同的环境中,在新场景中从多个角度展示单个产品,同时保留主体。 基于自然语言描述的图像编辑。 例如,该模型可以模糊图像背景、去除 T 恤上的污渍、从照片中移除整个人、改变主体的姿势、为黑白照片添加色彩,或实现任何通过简单提示能想到的效果。 强大的世界知识。 一般的图像生成模型在美学图像方面表现出色,但缺乏对现实世界的深度语义理解。Gemini 2.5 Flash Image 受益于 Gemini 的世界知识,解锁了新的应用场景。比如理解手绘图表、帮助解答现实世界问题以及单步执行复杂编辑指令的能力。 您的浏览器不支持视频播放。请点击这里下载视频。 多图像融合 它能理解和融合多个输入图像。你可以将物体放入场景中,用配色方案或纹理重新设计房间,并通过单个提示融合图像。 您的浏览器不支持视频播放。请点击这里下载视频。 指标表现 目前 Gemini 2.5 Flash Image 基本霸榜图像编辑和生成模型的榜单了,特别是图像编辑领域更是大幅领先。 价格 文本价格(百万 token):输入 $0.3,输出 $2.5 图像生成价格(百万 token):输入 $0.3,输出 $30 输出图片的最大尺寸为 1024x1024 像素。 如果换算成一张图的话,大概一张图 3 毛钱左右。 体验地址 Google AI Studio,右上角选择模型为:Gemini 2.5 Flash Image Preview Gemini,选择图片模式 OpenRouter,选择 Google: Gemini 2.5 Flash Image Preview 或者 Google: Gemini 2....

August 29, 2025 · 1 min · fisherdaddy

月之暗面杨植麟:Kimi K2 发布后的深度思考与未来之路

在 Kimi K2 模型发布后,月之暗面创始人杨植麟接受了张小珺的专访。他深入探讨了从“缸中之脑”到 Agent 的 AI 范式转变,攀登“无限雪山”的哲学思考,以及 Kimi 的技术路线与未来,如果有时间建议大家去看看原文。本次访谈中核心围绕他在大模型创业第二年的思考、公司最新发布的 Kimi K2 模型,以及他对 AI 发展的哲学观。杨植麟将 AI 研发比作攀登一座“无限的山”,强调在不断解决问题的过程中拓展知识边界。 以下内容是对此次访谈简单的摘要,由 FisherAI Chrome 插件完成,模型为:Gemini 2.5 Pro。 主要观点 AI 研发是永无止境的探索:杨植麟深受《无穷的开始》一书影响,认为 AI 发展如同攀登一座没有顶峰的雪山。核心理念是“问题不可避免,但问题可以解决”,每一次技术突破都会带来新的挑战,从而驱动知识和技术的无限进步。 AI 范式正从“缸中之脑”走向与世界交互:当前 AI 的关键转变是从只能进行内部思考的推理模型,演变为能够通过多轮、使用工具与外部世界交互的 Agent (智能体)。这一转变的核心是 test-time scaling,即在推理时投入更多计算以完成更复杂的任务。 K2 模型的战略核心是提升效率与 Agent 能力:面对高质量数据有限的瓶颈,K2 模型的核心目标是提升 token efficiency (数据利用效率),通过 Muon 优化器等技术,让模型“吃一份数据,学到两份的知识”。同时,重点发展 Agentic (智能体式) 能力,让模型具备解决复杂问题的泛化能力。 Agent 的最大挑战是泛化能力:当前 Agent 训练容易过拟合特定基准测试 (如 SWE-bench),导致在真实、多样的场景中表现不佳。杨植麟认为,未来的突破口在于用更 AI native 的方式训练 AI,即让模型参与自身的研发过程 (L4 Innovator 阶段),以解决泛化性难题。 组织管理与科研创新的哲学相通:杨植麟将强化学习 (RL) 的理念应用于团队管理,认为应以设定目标和奖励 (RL) 为主,辅以必要的指导 (SFT),从而激发团队的创造力和主观能动性,避免因过度指导而扼杀创新。 关键细节 关于 Kimi K2 模型: 定位:Kimi K2 是一个于 2025 年 7 月发布的、基于 MoE 架构的开源编程和 Agentic 大语言模型。杨植麟在内部将其比作“乔戈里峰”,象征其攀登难度虽大但并非终点。 技术创新:为解决数据墙问题,K2 重点提升 token efficiency。关键技术包括首次在大规模模型训练中采用经优化的 Muon 优化器,以及通过数据改写 (Rephrase) 策略增强模型对高质量数据的吸收和泛化能力。 关于 AI 范式演进: 从“缸中之脑”到 Agent:“缸中之脑”指模型仅在内部进行长思考推理 (Reasoning);而 Agent 则能通过工具 (如浏览器、代码解释器) 与外部世界交互,完成多步骤的复杂任务。 “一方产品”趋势:模型公司自己下场做产品 (如 Claude Code),将模型、工具和环境进行端到端整合训练,相比第三方开发者在 API 上搭建应用,这种方式的上限可能更高。 L1 到 L5 并非严格线性:杨植麟认为 OpenAI 提出的 L1 到 L5 等级是重要的里程碑,但并非严格的先后依赖关系。例如,解决 L3 (Agent) 的泛化问题,可能需要 L4 (Innovator) 的能力,即用 AI 训练 AI。 关于战略与思考: 开源策略:杨植麟承认开源有市场博弈的因素,但更希望通过与社区分享技术,共同加速技术进步。他认为开源主要赋能下游应用,但模型核心能力的提升仍依赖原厂。 商业模式:当前 AI 公司的商业模式主要为 API 服务和“一方产品”。月之暗面会进行尝试,但当前首要目标仍是提升模型能力,相信技术领先自然会带来商业成功。 AI 的终极价值:杨植麟将 AI 视为“人类文明的放大器”,能够极大地加速科学发现和知识创造的进程。他认为,即使 AI 能替代大部分创造性工作,人类的独特价值依然存在于“体验”和“爱”。

August 28, 2025 · 1 min · fisherdaddy

Claude Code 深度揭秘:从“多开大法”到强大的智能体SDK,开发者是如何玩转AI的

Anthropic 的 Cat Wu (Claude Code) 和 Alex Albert (Claude Relations) 讨论了 Claude Code 团队如何对新功能进行原型设计,使用 Claude Code SDK 的最佳实践,以及在与开发人员一起构建我们的代理式编码解决方案过程中学到的其他经验。本文整理自对此讨论,带你 5 分钟了解这篇访谈的精华。 你有没有想过,当一群顶尖的AI工程师为自己打造一款编程工具时,会发生什么?答案是:迭代速度快得惊人,而且会催生出一些开发者社区独有的“黑话”,比如“Multi-Clauding”(多开Claude)。 最近,Anthropic 的 Claude Relations 负责人 Alex 和 Claude Code 产品经理 Cat 坐下来聊了聊,揭开了这款炙手可热的AI编程工具背后的故事。从团队内部的开发流程,到用户五花八门的使用姿势,再到未来人人都能构建专属智能体(Agent)的蓝图,信息量非常大。 迭代的秘诀:先让内部员工“嗨”起来 你有没有觉得,Claude Code 好像总是在更新?每次在终端里打开它,似乎都有新功能冒出来。这种“疯狂”的交付速度背后,藏着一套非常独特的开发哲学。 Cat 解释说,Claude Code 团队里全是些产品嗅觉敏锐的工程师。很多新功能的诞生,不是来自冗长的产品需求文档,而是源于一个简单的念头:“嘿,如果有个功能能帮我做……就太酷了。” 接下来会发生什么?他们不会去写文档,而是直接用 Claude Code 把这个功能的原型给做出来。 “用 Claude Code 做原型太快了,所以大部分时候,大家干脆跳过文档,直接动手。” 这个原型会立刻在公司内部发布,让所有 Anthropic 的员工(他们亲切地称自己为“Ants”)来试用。如果大家用得不亦乐乎,反馈特别积极,那它就达到了上线的标准,因为这强烈预示着外部用户也会喜欢它。 这就是他们的“吃狗粮”(Dogfooding)闭环——产品好不好,自己人先用个爽。这种方式不仅快,而且非常有效,因为开发者最懂开发者。 一种工具,N种玩法:从创业公司到世界500强 Claude Code 的一个神奇之处在于,它的上手体验极其顺滑。无论你是单打独斗的独立开发者,还是财富500强企业里的工程师,只需要一个 npm install 命令,几乎无需任何配置,它就能立刻投入工作。因为它能直接访问你本地的文件和工具,让你对它的能力范围有个非常清晰的认知。 有趣的是,不同规模的团队,渐渐玩出了完全不同的花样。 创业公司的玩法:放手去做与“Multi-Clauding” 小公司的工程师们更喜欢让 Claude “放飞自我”。他们会开启 auto-accept mode(自动接受模式),让 Claude 自主修改代码,无需每次都手动确认。...

August 22, 2025 · 1 min · fisherdaddy

介绍一下 DeepSeek 最新开源的 DeepSeek-V3.1 模型

DeepSeek 正式开源 DeepSeek-V3.1:迈向 Agent 时代的第一步! DeepSeek-V3.1 是一个混合推理模型,一个模型支持两种模式:思考(Think)与非思考(Non-Think)。 PS:Qwen 团队发布 Qwen3-235B-A22B-Instruct-2507 时已经踩过这个坑了,可能后续 DeepSeek 团队后续也得放弃这种混合模式的方案。这种混合思考模型虽然既有 instruct 模型的快思考,也有 Thinking 模型的深度思考,但无法达到垂类模型的最佳质量,所以 Qwen 团队放弃了具有混合思考模式的 Qwen3-235B-A22B 的继续迭代。 DeepSeek-V3.1 的两大特点: 更快的思考速度:相较于 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短的时间内得出答案 更强的 Agent 能力:后训练(Post-training)增强了工具使用和多步 Agent 任务的能力 一些模型的细节: V3.1 Base:在 V3 模型基础上,额外使用 840Btokens 进行持续预训练,以扩展长文本能力 使用了新的分词器,新的分词器配置文件:https://huggingface.co/deepseek-ai/DeepSeek-V3.1/blob/main/tokenizer_config.json V3.1 Base 开源权重:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base V3.1 开源权重:https://huggingface.co/deepseek-ai/DeepSeek-V3.1 一些看法: 从 DeepSeek-V3.1 的官方指标来看,DeepSeek 在往 Agent 方向在走,此次的优化方向主要在编码能力和工具使用,对标的模型应该还是 OpenAI 和 Anthropic 的模型,比如 GPT-5 和 Claude 4。从官方指标结果上看,DeepSeek-V3.1 比 DeepSeek-V3-0324、DeepSeek R1 0528 确实有比较大的提升。 但和目前开源的 Sota 模型比还是稍微差了一些,我们来对比一下最近开源的编码 Sota 模型:一个是千问的 Qwen-Coder,一个是 Kimi 的 Kimi K2。...

August 21, 2025 · 1 min · fisherdaddy

GPT-5 提示指南

本文来自于 OpenAI 官方文档:GPT-5 prompting guide。 GPT-5 是我们最新的旗舰模型,在代理任务性能、编码、原始智能和可控性方面实现了重大飞跃。 虽然我们相信它在各种领域都能“开箱即用”地表现出色,但在本指南中,我们将介绍一些提示技巧,以最大化模型输出的质量。这些技巧源于我们训练模型并将其应用于真实世界任务的经验。我们将讨论诸如提升代理任务性能、确保指令遵循、利用新的 API 功能,以及为前端和软件工程任务优化编码等概念——并深入探讨 AI 代码编辑器 Cursor 在 GPT-5 提示调优方面的关键见解。 我们已经看到,通过应用这些最佳实践并尽可能采用我们的标准工具,可以获得显著的收益。我们希望本指南以及我们构建的提示优化器工具能成为你使用 GPT-5 的起点。但一如既往,请记住,提示并非一刀切的练习——我们鼓励你在本文提供的基础上进行实验和迭代,以找到适合你问题的最佳解决方案。 代理工作流的可预测性 我们为开发者量身打造了 GPT-5:我们专注于改进工具调用、指令遵循和长上下文理解,使其成为代理应用的基础模型。如果将 GPT-5 用于代理和工具调用流程,我们建议升级到 Responses API,在该 API 中,推理过程会在工具调用之间保持持久化,从而带来更高效、更智能的输出。 控制代理的“积极性” 代理框架的控制范围可以很广——有些系统将绝大部分决策权委托给底层模型,而另一些系统则通过大量的程序化逻辑分支对模型进行严格控制。GPT-5 被训练来适应这个范围内的任何一点,从在模糊情况下做出高层决策到处理专注、明确定义的任务。在本节中,我们将介绍如何地校准 GPT-5 的代理积极性:换言之,即它在主动性和等待明确指导之间的平衡。 降低积极性的提示 默认情况下,GPT-5 在代理环境中会详尽、全面地收集上下文,以确保产生正确的答案。要缩小 GPT-5 代理行为的范围——包括限制离题的工具调用行为和最小化达成最终答案的延迟——请尝试以下方法: 切换到较低的 reasoning_effort。这会降低探索深度,但能提高效率和降低延迟。许多工作流可以在中等甚至低的 reasoning_effort 下以一致的结果完成。 在你的提示中定义明确的标准,说明你希望模型如何探索问题空间。这减少了模型探索和思考过多想法的需要: <context_gathering> 目标:快速获取足够的上下文。并行化发现过程,并在可以行动时立即停止。 方法: - 从宽泛开始,然后展开到集中的子查询。 - 并行发起各种查询;读取每个查询的匹配结果。对路径进行去重和缓存;不要重复查询。 - 避免过度搜索上下文。如果需要,在一个并行批次中运行有针对性的搜索。 提前停止标准: - 你可以指明需要更改的确切内容。 - 匹配结果(约70%)收敛于一个领域/路径。 升级一次: - 如果信号冲突或范围模糊,运行一个精炼的并行批次,然后继续。 深度: - 只追踪你将要修改的符号或你依赖其契约的符号;除非必要,否则避免传递性扩展。 循环: - 批量搜索 → 最小化计划 → 完成任务。 - 仅在验证失败或出现新的未知情况时再次搜索。倾向于行动而非更多搜索。 <context_gathering> 如果你愿意接受最大程度的规定,你甚至可以设置固定的工具调用预算,如下所示。该预算可以根据你期望的搜索深度自然地变化。...

August 20, 2025 · 6 min · fisherdaddy

从“线性代数B-”到AI巨头:Anthropic 联创Tom Brown的“野狼”进化论

本文来自于 YC 组织的一场圆桌论坛,本期节目的嘉宾是 Anthropic 联合创始人 Tom Brown:构建 Claude 代码,来自 GPT-3 和大语言模型系统设计的经验。以下是视频精华。 在AI的世界里,Anthropic的联合创始人Tom Brown是一个传奇人物。他的职业轨迹几乎贯穿了本轮AI浪潮的所有关键节点:从早期Y Combinator的创业生态,到OpenAI的核心团队,再到创立与OpenAI分庭抗礼的Anthropic。 但在风光背后,他的故事充满了自我怀疑、艰难抉择和一些出人意料的转折。这不仅仅是一个技术天才的成长史,更是一部关于如何从被动接受任务的“家犬”,进化成主动出击、为生存而战的“野狼”的真实写照。 告别安逸:“宁为野狼,不作懒犬” 故事的起点在2009年,刚从MIT毕业的Tom Brown,只有21岁。他没有选择去大公司当一颗螺丝钉,而是加入了朋友的初创公司,成了第一名员工。 “如果我去大公司,或许能学到更扎实的软件工程技能,”Tom回忆道,“但在初创公司,一切都得自己想办法。公司默认的结局就是死亡,我们必须像狼一样出去捕猎,否则就会饿死。” 这个比喻深深烙印在了他的职业生涯中。在学校,他习惯了老师布置任务、自己完成任务的模式,就像一只等着主人喂食的狗。而创业,则把他彻底变成了一匹必须在荒野中寻找食物的狼。这种“野狼心态”——主动寻找问题、解决问题,并为结果负全责——成了他日后成就一番事业最宝贵的财富。 他的早期创业并不总是一帆风顺。他曾和朋友一起创办过一个叫Solid Stage的DevOps公司,在Docker还没诞生的年代,他们的想法(一个更灵活的Heroku)太过超前,连自己都讲不清楚到底要做什么。在YC面试时,面试官甚至在白板上画了一个愤怒的皱眉脸,追问他们:“你们到底要构建什么?” 从约会App到AI:一次关键的“朋友圈”连接 离开那家创业公司后,Tom加入了一款名为Grouper的约会App。这在今天看来似乎是一个奇怪的职业选择,但对他个人而言却意义重大。 “我以前是个特别腼腆内向的小孩,”Tom坦诚地说,“Grouper的模式是三个男生和三个女生一起在一个酒吧见面,这让我觉得很安全,可以带着朋友一起去认识新朋友。”他想做的,就是为像他一样不善社交的人创造机会。 有趣的是,Grouper的用户中有一个超级粉丝——Greg Brockman(后来的OpenAI联合创始人兼总裁)。他几乎每周都会在公司的聊天群里吆喝大家一起去参加Grouper的活动。这层看似不经意的联系,为Tom日后进入AI领域埋下了关键的伏笔。 Grouper最终没能走下去,因为Tinder横空出世,用一种更高效的方式解决了同样的“社交破冰”问题。这段经历让Tom再次认识到市场的残酷,也让他陷入了一段职业倦怠期。他花了三个月时间去玩乐、放松,甚至造了一辆艺术车,直到把钱花光。 投身AI:一个“线性代数B-”学生的豪赌 2014年,Tom做出了一个改变人生的决定:转向AI研究。当时,这在很多人看来是个“奇怪又糟糕”的选择。 “我的朋友们觉得这事不靠谱,就像在担心火星上人口过剩一样遥远,”他笑着说,“他们甚至怀疑我到底行不行。” 这种怀疑并非空穴来风。Tom坦言自己大学时“线性代数只拿了B-,甚至可能是C+”。在那个年代,AI研究被认为是顶尖数学天才的专属领域。他感到巨大的不确定性,犹豫了整整六个月。 最终,他还是决定赌一把。为了获得进入这个领域的门票(当时主要是DeepMind和Google Brain),他制定了一个为期六个月的自学计划: 在Coursera上学习机器学习课程 参加Kaggle竞赛项目练手 重读《线性代数应该这样学》(Linear Algebra Done Right) 啃下一本统计学教科书 用YC校友福利买来的GPU,远程SSH进去跑代码 当OpenAI成立的消息传出时,他立刻联系了老朋友Greg Brockman,谦卑地表示:“我线性代数成绩不好,但我懂点分布式系统。如果需要,我愿意去拖地。” 正是这种谦逊和他在系统工程方面的经验,让他拿到了OpenAI的入场券。他最初的工作甚至和机器学习无关,而是为《星际争霸》项目构建游戏环境。 OpenAI岁月与“规模法则”的启示 在OpenAI,Tom亲身参与了从GPT-2到GPT-3的飞跃。这期间,一个关键的洞见改变了一切——规模法则(Scaling Laws)。 时任OpenAI研究副总裁的Dario Amodei(后来的Anthropic CEO)团队发现,只要用正确的配方,投入越多的计算资源,就能稳定地获得更强的智能。 “那篇论文里的图表,一条笔直的线贯穿了12个数量级,”Tom至今仍感到震撼,“12个数量级!我从没见过任何东西能有这么夸张的跨度。这让我确信,AI的未来就在于规模化。” 当时,学术界很多人对此不屑一顾,认为这只是“堆硬件、堆数据”的笨办法,不够优雅。但Tom和他的同事们坚信,这就是那个“能奏效的笨办法”。 创立Anthropic:从“不被看好”到行业颠覆者 坚信规模法则的威力,也让他们对AI安全产生了更深的忧虑。Tom和Dario等人认为,人类正处在一个将控制权交给AI的临界点,必须建立一个能承载这份沉重责任的机构。 于是,他们选择离开OpenAI,创立了Anthropic。 “刚开始,我们看起来一点都不像会成功的样子,”Tom回忆道,“OpenAI有十亿美元资金和全明星阵容,而我们只有七个创始人在疫情期间远程协作,连要做什么产品都还没想清楚。” 但正是这种 underdog 的处境,吸引了一批真正为使命而来的早期员工。他们本可以留在OpenAI享受更高的声望和薪水,却选择了一条更不确定的路。这个纯粹由使命驱动的早期团队,为Anthropic日后的快速发展奠定了坚实的文化基础。 Anthropic的崛起并非一帆风顺。在ChatGPT引爆全球之前,他们只做了一个内部使用的Slack机器人。他们犹豫着是否要公开发布,因为不确定这是否对世界有益,也缺乏相应的服务基础设施。 直到2024年,随着Claude 3.5 Sonnet的发布,局面才彻底扭转。YC的创业公司几乎在一夜之间,将编码任务的首选模型从OpenAI转向了Anthropic。 Claude的“X因素”:把模型当成用户 为什么Claude在编码等任务上表现如此出色,甚至超出了基准测试的预期?Tom揭示了一个令人意外的秘密。 “我们没有专门的团队去‘应试’,也就是针对公开的基准测试进行优化,”他解释道,“我们更关注内部的、更真实的评估体系,以及我们工程师自己的使用体验(Dogfooding)。” 但更深层次的原因,可能是一种思维模式的转变——把Claude本身看作是一个用户。 “当我们开发Claude Code时,我们不仅仅是为开发者构建工具,更是在为Claude构建工具,”Tom说,“我们思考的是,Claude需要什么样的上下文?它需要什么样的工具才能更高效地工作?我们团队对Claude这个‘用户’有更深的同理心。”...

August 20, 2025 · 1 min · fisherdaddy

AI 巨头牌局:当算力成本与价值捕获成为新的战场

本文来自于 A16Z 组织的一场圆桌论坛,本期节目中,Dylan Patel(SemiAnalysis 创始人兼首席执行官)将与 Erin Price-Wright(a16z 普通合伙人)、Guido Appenzeller(a16z 合伙人)以及主持人 Erik Torenberg 一同深入探讨 AI 芯片、数据中心和基础设施战略的现状。以下是视频精华。 “淘金热里,最先赚钱的永远是卖铲子和镐头的人。” 这句老话在今天的人工智能(AI)浪潮中,显得再贴切不过了。当我们谈论AI革命时,我们实际上在谈论一场由硬件、数据中心和芯片主导的军备竞赛。英伟达(Nvidia)已经成为地球上最有价值的公司,而AI云服务的IPO也屡创新高。这盘棋,远比我们想象的更复杂。 OpenAI的新算盘:从追求极致智能到精打细算 最近OpenAI发布的GPT-4o(被许多人戏称为GPT-4.5或GPT-5的预览版),让不少重度用户感到一丝“失望”。为什么?因为感觉模型不再像以前那样“深度思考”了。过去,像o1、o3这样的模型,可能会花上30秒甚至更长时间来处理一个复杂问题。而现在,即使开启“思考模式”,GPT-4o的响应时间也大大缩短,平均只有5到10秒。 这背后其实是OpenAI战略上的一次重要转向:从不计成本地追求智能,转向更高效、更经济的算力分配。 新模型的核心,是一个叫做**“路由器(Router)”**的机制。当你提出一个问题时,这个路由器会智能地判断: 这是个简单问题吗? 比如“天空为什么是蓝色的?”,那就交给轻量级的Mini模型,成本极低。 这是个需要深度思考的复杂问题吗? 那就调用更强大的“思考模型”。 用户是不是快没额度了? 也许可以降级到更基础的模型。 说白了,OpenAI现在能像一个精明的管家一样,动态地决定为你的每一次提问分配多少算力。这不仅极大地提升了他们的基础设施容量,更关键的是,为未来的商业模式铺平了道路。 过去,AI公司很难从免费用户身上赚钱,因为在对话中插广告会严重破坏用户体验。但有了路由器,一切都不同了。想象一下: 低价值查询:用户问作业题,用普通模型回答,成本可控。 高价值查询:用户问“我附近最好的律师是谁?”或者“帮我预订下周去纽约的机票”,路由器会立刻调用最顶级的模型和智能体(Agent),去搜索、比较、甚至完成预订。 在这种模式下,OpenAI可以从交易中抽取佣金,从而将免费用户转化为高价值的收入来源。这不仅仅是技术上的优化,更是商业模式上的一次“核聚变”。成本和性能的平衡,已经取代了单纯的跑分,成为了模型竞争的新战场。 英伟达的王座:价值捕获的终极赢家 聊完模型,我们必须把目光投向这一切的基石——英伟达。它的股价今年势如破竹,但未来的路会怎么走? 需求端依然火热。可以粗略地把英伟达的芯片需求分成三块: AI实验室:像OpenAI和Anthropic这样的公司,消耗了大约30%的芯片,用于训练下一代大模型。 广告与推荐系统:Meta、字节跳动等公司,为了优化广告投放,同样是芯片采购大户,这部分也占了大约三分之一。 其他玩家:剩下的三分之一,流向了各种云服务商和初创公司,其中不乏一些尚未找到稳定商业模式的“非经济性”买家。 目前来看,第一和第二部分的需求仍在增长,但真正有趣的是一个被称为“价值捕获”的问题。 一个有趣的现象是,AI已经创造了巨大的社会价值,但模型公司本身却很难将这些价值完全转化为收入。比如,一个四人开发团队,利用AI工具能自动化处理海量数据,创造出巨大的商业价值,但他们为此支付给模型公司的API费用却微乎其微。OpenAI可能连自己创造价值的10%都没能捕获到。 然而,作为“卖铲人”的英伟达,却稳稳地抓住了价值。AI软件开发能为全球GDP带来数万亿美元的增长潜力,这些价值最终都会层层传导,转化为对GPU的需求。 挑战者们的困境:一场注定艰难的“越级打怪” 既然英伟达这么赚钱,难道没人能挑战它吗?当然有,但这条路异常艰难。 1. 内部玩家:谷歌、亚马逊的定制芯片 谷歌的TPU、亚马逊的Trainium、Meta的MTIA,这些云巨头们都在大力发展自己的定制芯片。他们的优势在于: 拥有“ captive customer ”(专属客户):就是他们自己。芯片造出来不愁销路。 目标是压缩成本:他们不需要对外销售产生利润,只要能降低内部的算力成本,就是巨大的成功。 目前来看,谷歌的TPU利用率很高,而亚马逊的Trainium也随着Anthropic的使用逐渐成熟。这确实是英伟达面临的最大威胁之一。甚至有人提出,既然英伟达的市值已经超过了谷歌,谷歌为什么不干脆把TPU拿出来公开销售呢?这在理论上完全可行,但需要谷歌进行一次彻头彻尾的文化和组织架构重组,难度极大。 2. 外部玩家:芯片初创公司的“5倍定律” 市面上涌现了无数AI芯片初创公司,比如Etched、Revos、Grok、Cerebras等等,他们获得了数十亿美元的投资。但他们面临的挑战,比云巨头们大得多。 他们无法像云巨头那样只为自己服务,必须在公开市场上与英伟达竞争。而英伟达几乎在所有方面都占尽优势: 供应链:能最先拿到台积电的先进工艺、SK海力士的HBM内存,甚至在网线、机架等方方面面都有更强的议价能力。 生态系统:CUDA软件生态已经形成了一道深深的护城河。 迭代速度:每年都在快速推出性能更强的产品。 这就意味着,任何挑战者要想脱颖而出,就必须拿出比英伟达好上5倍的产品。为什么是5倍?因为你即使在架构上实现了5倍的理论优势,经过供应链成本、软件开销、市场营销等层层损耗,最终可能只剩下50%的实际优势。而这时,英伟达只要稍微压缩一下自己75%的毛利率,就能轻松抹平你的这点优势。 更要命的是,这是一个“移动靶”。当你花几年时间,针对当前的Transformer模型设计了一款完美的芯片,结果模型本身又进化了,变得更适合在英伟达的通用GPU上运行。这种“硬件软件协同进化”的循环,让专用芯片的赌注风险极高。 基础设施的瓶颈:当美国为电发愁 这场竞赛还有一个关键的制约因素:电力和数据中心。 在美国,AI的发展正面临着严重的电力瓶颈。这并不是说电费有多贵,而是电网容量、变电站建设、输电线路铺设这些基础设施的建设速度,远远跟不上AI算力的增长需求。谷歌、Meta等公司手上有大把已经买好的芯片,却因为数据中心没建好、电力没到位而闲置。为了抢时间,他们甚至开始搭建临时的“帐篷式”数据中心。 相比之下,中国拥有强大的基建能力,电力不是问题。但他们受限于无法获得最顶尖的AI芯片。即便如此,中国公司依然在想尽办法,比如在海外租用GPU云服务,或者通过新加坡等地的公司在海外建设数据中心。 这个现象揭示了AI竞赛的另一个层面:它不仅仅是公司之间的竞争,更是不同国家在基础设施、供应链和资本投入上的全面较量。 给科技巨头们的“逆耳忠言” 最后,不妨开个玩笑,如果能给这些科技巨头的CEO们提点建议,会是什么呢? 给英伟达的黄仁勋:你手握千亿现金,别只想着股票回购。利用这笔巨款,深入投资基础设施层,去加速整个生态的建设。这不仅能巩固你的王座,还能创造更大的市场。 给谷歌的皮查伊和布林:别再那么“佛系”了!把你们的TPU拿出来卖,把XLA软件栈彻底开源。你们正在流失最顶尖的人才,而搜索业务的根基正被AI动摇。再不拿出破釜沉舟的勇气,就晚了。 给Meta的扎克伯格:你对AI的愿景很宏大,但要更快地落地成产品。别只守着自己的社交花园,大胆地走出去,推出能和ChatGPT、Claude正面竞争的产品。 给苹果的蒂姆·库克:醒醒!计算的交互界面正在从“触摸”转向“AI”,这会从根本上颠覆你的生态。Siri已经落后太多了,再不投入数百亿美元到基础设施和模型研发上,苹果的护城河会越来越窄。 给微软的纳德拉:你们拥有全球最强的企业销售团队,但产品力却在下滑。GitHub Copilot起了个大早,却赶了个晚集;自家的AI产品反响平平;对OpenAI的掌控力也在减弱。是时候把重心从销售拉回到产品上了。 给特斯拉/xAI的埃隆·马斯克:你吸引顶尖人才的能力无人能及,但一些冲动的决定正在伤害你的公司和项目。少一些随性的决策,多一些对产品的持续专注,你的帝国会更稳固。 这场AI的牌局还远未到终局。战况瞬息万变,曾经的性能王者开始精打细算,沉默的基建狂魔手握重金,而挑战者们则在一条异常崎岖的道路上奋力追赶。谁能笑到最后,不仅取决于技术上的突破,更取决于在经济、生态和战略上的远见卓识。我们正亲眼见证一个时代的诞生。

August 20, 2025 · 1 min · fisherdaddy

Sam Altman 独家专访:OpenAI 的万亿计划、收购 Chrome 野心与 AI 的未来

本文翻译自 Theverge 对 OpenAI CEO Sam Altman 的专访,核心内容围绕近期 GPT-5 发布的争议、公司的强劲增长以及 OpenAI 未来的宏大规划。 主要内容 承认发布失误,积极应对用户反馈:Sam Altman 坦诚地承认公司在 GPT-5 的发布过程中存在失误,尤其是在替换掉旧模型 4o 的决策上,并表示公司已迅速采取措施回应用户的不满。 增长势头依旧迅猛:尽管存在一些负面反馈,但 OpenAI 的各项核心指标,如 API 流量和 ChatGPT 用户数,仍在发布后创下新高,显示出产品的强大吸引力。 未来愿景远超语言模型:Altman 的目标远不止于改进 ChatGPT,他正积极规划将 OpenAI 的业务扩展到消费硬件、脑机接口、社交媒体等多个前沿领域,并有筹集巨额资金建设数据中心的宏伟计划。 关注产品的社会影响:OpenAI 已经注意到并开始内部讨论用户可能与 ChatGPT 产生不健康关系的问题,尽管 Altman 认为这部分用户占比极小。 关键细节 关于 GPT-5 的发布争议: 在收到用户于 Reddit 和 X 等社交平台上的抗议后,Altman 亲自决定,迅速为付费订阅者重新提供了旧版模型 4o 的选项,以恢复用户偏爱的“温暖感”。 Altman 直言:“我认为我们在发布过程中完全搞砸了一些事情。” 惊人的增长数据: GPT-5 发布后的 48 小时内,OpenAI 的 API 流量翻了一番。 公司目前面临 GPU 资源耗尽的状况。 ChatGPT 的日活跃用户数每天都在创下历史新高。 OpenAI 的未来蓝图: 业务扩张:计划进军消费硬件 (consumer hardware)、脑机接口 (brain-computer interfaces) 和社交媒体 (social media) 领域。 潜在收购:Altman 表示,如果美国政府迫使 Google 出售其浏览器业务,他对收购 Chrome 感兴趣。 基础设施建设:他希望筹集数万亿美元用于建设未来的数据中心。 关于用户关系:...

August 19, 2025 · 2 min · fisherdaddy