OpenAI 官方指南:用于构建 AI Agent 的新工具

2025 年 3 月 12 日,OpenAI 发布了一系列新的 API 和工具,旨在简化开发者和企业构建实用且可靠的 “生成式 AI 产品” 代理(agents)。 Responses API Responses API 是构建 “生成式 AI 产品” 代理的新 API 原语,它结合了 Chat Completions API 的简洁性和 Assistants API 的工具使用能力。通过单个 Responses API 调用,开发者可以使用多种工具和模型轮次来解决复杂的任务。 Responses API 初始支持的内置工具包括: 网页搜索:使用 gpt-4o 和 gpt-4o-mini 模型时可用的工具,可以提供快速、最新的答案,并带有清晰且相关的来源引用。在 SimpleQA 基准测试中,GPT-4o 搜索预览和 GPT-4o mini 搜索预览分别获得了 90% 和 88% 的准确率。网页搜索 API 返回的结果包含来源链接。 文件搜索:可以从大量文档中轻松检索相关信息,支持多种文件类型、查询优化、元数据过滤和自定义重排序。定价为每千次查询 2.50 美元,文件存储为每月每 GB 0.10 美元,首 GB 免费。 计算机使用:由与 Operator 相同的 Computer-Using Agent (CUA) 模型驱动,可以自动化计算机上的任务。在 OSWorld 基准测试中,成功率为 38....

March 12, 2025 · 4 min · fisherdaddy

推理模型的希望 • Epoch AI

本文由 Epoch AI 官方博客发布,主要分析推理模型的影响。 推理模型的核心思想是在运行时让模型进行更长时间的思考,以找到问题的正确解决方案。这可以通过提示模型逐步思考,展示显式的思维链来实现。早期的 LLM 在简单地被要求长时间思考时表现出较差的扩展性,但通过应用强化学习 (RL) 方法,特别是在奖励模型正确答案的情况下,推理模型的推理质量得到了显著提高。这种方法即使不奖励中间推理步骤,也能促使模型学习生成长的推理链,从而提高推理质量。 推理模型的一个重要优势是能够生成高质量的合成训练数据,用于改进未来的推理模型甚至非推理模型。强化学习在推理模型中的成功应用表明,它可以有效地提高 LLM 的性能,并有可能将模型性能提升到超人水平。强化学习最适用于解决方案易于验证的任务,因为这类任务可以提供密集的奖励信号,从而促进高效训练。 未来几年内,在数学问题解决和定理证明领域,推理模型将取得显著进展,到 2027 年底,AI 有 3/5 的概率能够在自主证明任意数学定理方面超越顶尖人类数学家。推理模型最有可能成功应用于满足两个关键标准的任务:(1) LLM 预训练数据包含大量与执行任务相关的信息;(2) 解决方案可以低成本且可编程地验证。这些任务被称为 “纯推理任务”。 然而,许多经济价值高的任务可能不属于 “纯推理任务” 的范畴。对于视频编辑等任务,由于缺乏高质量的、与任务执行方式直接相关的数据,以及评估质量的反馈成本高昂,AI 在自动化这些任务方面将面临挑战。因此,尽管 AI 在逻辑推理等领域将取得巨大进步,但在自动化需要经验反馈和难以验证的任务方面,仍将面临重大挑战。 虽然推理模型提高了外部部署 AI 的效用,也增强了内部使用推理计算的效用(用于生成合成训练数据),但这两种效应可能会大致相互抵消,不会导致计算资源在内部开发和外部部署之间分配的根本性转变。基于以往类似创新的经验,推理模型对商业模式的影响将是平衡的,不会颠覆现有模式。 总而言之,推理模型将在未来几年的人工智能发展中发挥重要作用,特别是在自动化 “纯推理任务” 方面。然而,推理模型应被视为人工智能长期发展趋势的一部分,持续扩展 AI 可以执行的任务范围。要充分释放 AI 在自动化所有有价值的经济任务方面的潜力,还需要在多模态、自主性、长期记忆和机器人技术等领域取得更多突破。未来,多智能体协作等新的推理扩展方式可能会成为新的发展方向。 原文:推理模型的希望 过去一年中,也许最重要的 AI 进展是推理模型 (Reasoning Models) 的兴起——通过强化学习训练的大语言模型 (LLM),用于解决复杂问题,例如 OpenAI 的 o1,DeepSeek-R1 和 Claude 3.7 Sonnet。这些模型已经展示了卓越的成功,显著增强了 AI 在数学问题解决、科学推理和编码方面的人工智能水平 (AI capabilities)。 在本文中,我旨在提出一个清晰的概念框架,以理解推理模型 (Reasoning Models) 可能对世界产生的影响。我的核心论点是,推理模型 (Reasoning Models) 的主要结果将是创造出在“纯推理任务”上具有狭义超人能力的 AI ——具有正确答案且可以低成本验证的抽象任务。例如,我猜测在未来三年内,可能会开发出能够胜过顶尖人类数学家证明任意数学定理的 AI。与此同时,我预测具有经济价值的 AI 性能将会滞后,可靠的 AI 智能体 (AI Agent) 的出现将明显晚于高质量的推理模型 (Reasoning Models)。...

March 7, 2025 · 3 min · fisherdaddy

如果你的产品足够卓越,就不必仅仅满足于“好”的标准 • Paul Buchheit

本文的作者是 Gmail 的创始人 Paul Buchheit,本文核心观点是,伟大的产品不需要在所有方面都表现良好,而应该专注于少数几个关键属性并做到极致。 他认为产品设计成功的关键在于选择两到三个核心功能,并投入所有精力把这些功能做到非常出色,而其他次要功能可以暂时忽略。这种方法能够迫使产品团队找到产品的真正本质和价值。 iPod 的案例: 最初的 iPod 专注于三个关键属性: 1) 足够小巧,可以放入口袋; 2) 拥有足够大的存储空间,可以容纳数小时的音乐; 3) 易于与 Mac 同步。 尽管缺少无线功能、设备上编辑播放列表的功能以及对 Ogg 格式的支持等,iPod 仍然取得了巨大的成功,因为它在核心功能上做得非常出色。 Gmail 的案例: Gmail 在推出时也采用了类似的方法,专注于: 1) 速度快; 2) 存储所有邮件(在当时 4MB 配额是常态的情况下); 3) 基于对话和搜索的创新界面。 Gmail 最初的功能非常精简,例如没有富文本编辑器,地址簿功能也极其简单,但这些次要功能的缺失并没有妨碍 Gmail 成为一款伟大的产品。 对 “更多功能=更好” 误区的批判: 作者认为,很多人在产品设计上犯错,是因为他们陷入了 “更多功能=更好” 的误区。 他们错误地认为,成功的产品必须拥有竞争对手产品的所有功能,甚至更多。 作者指出,如果一个产品需要 “一切” 功能才能变得好,那么它很可能缺乏创新性。 iPad 的启示: 文章提到了 iPad 发布初期,人们也像批评 iPod 一样,关注其 “缺失” 的功能,例如进程管理器、文件管理器、窗口管理器等。 作者认为,iPad 的价值可能在于它提供了一种快速、简单、可共享的互联网窗口,能够激发用户新的使用场景,例如在家中轻松浏览网页、共享照片、玩棋盘游戏,在办公室进行远程协作等。 iPad 的简洁性,使其像 iPhone 一样,成为一个无需思考即可使用的简单设备,与复杂笨重的笔记本电脑形成对比。 产品设计的核心原则: 对于新产品的创建,作者建议聚焦于三项或更少的关键功能,并投入至少 80% 的精力把这些功能做到极致。 对于那些需要长长的功能列表的市场(通常是企业级产品),可以考虑堆砌功能,但对于消费者产品,简洁和核心功能的卓越性才是关键。 免责声明: 作者的建议主要适用于消费者产品(购买者也是使用者),对于那些购买流程复杂、需要满足大量功能需求的市场,可能不适用。 原文:如果你的产品足够卓越,就不必仅仅满足于“好”的标准 Paul Buchheit 是 Gmail 的创建者。他最初在 2010 年以博客 post 的形式发表了这篇文章。...

March 6, 2025 · 1 min · fisherdaddy

模型即产品 • Alexander Doria

大模型时代我一直有一个观点,即“模型即应用”,这篇由 pleias 联合创始人 Alexander Doria 所写的文章也在说阐述类似的逻辑,所以我把它翻译了一下分享给大家。 文章的核心观点是,人工智能 (AI) 发展的下一个阶段将以 “模型即产品” 为中心。 过去几年关于 AI 发展方向的猜测,如智能体、推理器和多模态,都指向了模型本身的重要性日益提升。 当前的研究和市场发展趋势都支持这一观点,预示着模型提供商将不再仅仅是 API 的提供者,而是转向提供更完整、更高价值的产品和服务。 OpenAI 的 DeepResearch 和 Claude Sonnet 3.7 作为 “模型即产品” 新范式的代表,DeepResearch 不是简单的 O3 封装,而是一个完全重新训练的模型,具备内部搜索、点击、滚动和文件解析等浏览能力,能够独立完成端到端的搜索任务并生成结构化的报告。这与 Perplexity 和 Google 等的 “Deep Research” 功能有所不同,后者可能只是在现有模型基础上进行微调。 Anthropic 对智能体的定义,强调真正的智能体应该能够 “动态地指导自己的流程和工具使用,保持对完成任务方式的控制” ,即内部自主完成任务。 而目前许多初创公司构建的 “智能体” 实际上是 “工作流” ,即通过预定义的代码路径编排 LLMs 和工具的系统。 作者认为,自主系统的重大进展将来自于模型本身的重新设计,而不是工作流的编排。Claude 3.7 的发布以及 Pleias 在 RAG 自动化方面的尝试都印证了这一点。 对于许多成功的模型 “wrapper” (封装应用) 来说,面临着 “训练或被训练” 的两难选择。 大型模型提供商正在向上游应用层扩展,试图捕获更多价值,而 “wrapper” 公司可能会沦为大型模型提供商的免费市场调研和数据生成者。 Naveen Rao 预测,封闭模型提供商将在未来 2-3 年内停止销售 APIs ,转而提供带有用户界面的完整应用。...

March 4, 2025 · 2 min · fisherdaddy

Duolingo 成功的秘诀!

Duolingo Handbook阐述了公司在过去十四年发展过程中形成的独特运营哲学和文化基石。核心理念是构建世界上最好的教育,并使其在全球范围内普及。为了实现这个宏伟目标,Duolingo 采取了长远的眼光,重视用户长期留存和品牌建设,并坚持产品驱动,通过不断试验和快速迭代来优化产品和服务。同时,Duolingo 注重营造轻松有趣的学习氛围,并以此构建了其独特的品牌形象。 长期视角 (Take the Long View) Duolingo 从创立之初就定位为一个需要数十年才能实现的长期项目。公司早期拒绝通过增加广告来快速增加收入,而是优先考虑用户体验和长期增长。在技术选择上,Duolingo 敢于投资早期但有潜力的技术,例如早期的文本转语音系统。在招聘方面,Duolingo 注重长期雇佣,寻找愿意与公司共同成长的人才。为了保持用户长期参与,Duolingo 不断完善 “Streak” 功能,并持续投入改进教学质量。即使在商业化方面,Duolingo 也坚持不以牺牲教育使命为代价,例如,付费订阅服务在去除广告的同时,仍然保证免费用户能够获得优质的学习体验。 “Duolingo Score” 和 “DET (Duolingo English Test)” 的推出也是长期视角的体现,旨在建立全球语言能力的标准。 提升标准 (Raise the Bar) Duolingo 从创始人开始就对细节有着近乎苛刻的追求。公司通过明确责任制 (“Taking Ownership”) 来保证高标准,并鼓励员工通过每日使用产品 (“Dogfooding”) 和 “Shake to Report” 功能来发现和报告问题。在团队文化上,Duolingo 提倡 “对事不对人 (Hard on the Work, Easy on the People)” 的反馈文化,鼓励建设性的批评和开放的沟通。对于产品和设计,Duolingo 设定了 “有用 (Useful)”、“直观 (Intuitive)”、“有趣 (Delightful)” 和 “精致 (Polished)” 四个标准。在招聘方面,Duolingo 坚持高标准,即使长时间空缺职位,也不降低标准迁就,甚至拒绝了资深高管,因为他们缺乏 “善良 (kind)” 的品质。Duolingo 推崇 “V1s” 而非 “MVPs”,即发布的第一个版本就必须是高质量的、完善的产品,而不是半成品。 快速行动 (Ship It) “快速行动 (Ship It)” 是 Duolingo 保持竞争力的关键。公司每周都会发布 iOS 和 Android 应用的新版本,并同时进行数百个实验 (“experiments”)。 “时钟速度 (Clock Speed)” 的概念被用来衡量和提升工作效率,旨在最大限度地减少决策和执行之间的间隔。为了确保资源投入到最重要的事情上,Duolingo 实行 “无情的优先级排序 (Ruthless Prioritization)”,砍掉效果不佳的项目,集中资源投入到高影响力的项目上。为了避免 “组织结构镜像产品 (shipping the org)” 的问题,Duolingo 强调从整体用户体验出发进行产品设计。公司鼓励 “实验文化 (Culture of Experimentation)”,允许试错,并从失败中学习。为了在快速行动的同时保持质量,Duolingo 引入了 “产品评审 (Product Review, PR)” 等流程,以确保决策的透明度和高效性。 “99 个坏主意 (99 Bad Ideas)” 的头脑风暴活动鼓励员工挑战传统思维,提出大胆的想法。...

February 28, 2025 · 2 min · fisherdaddy

介绍一下 Claude 3.7 Sonnet

Anthropic 于 2025年 2 月 25 日发布了其最新的 AI 模型 Claude 3.7 Sonnet,并称其为目前最智能的模型,也是市场上首个混合推理模型。该模型独特之处在于它既能提供近乎即时的响应,也能进行更长时间、逐步深入的思考,并且用户可以通过 API 精细地控制模型的思考时长。 Claude 3.7 Sonnet 既是普通 LLM 又是推理模型。在标准模式下,它是 Claude 3.5 Sonnet 的升级版;在扩展思考模式下,它会在回答前进行自我反思,从而提高其在数学、物理、指令跟随、编码和许多其他任务上的性能。Claude 3.7 Sonnet 的开发理念与其他推理模型不同。 Anthropic 认为,推理能力应该是前沿模型的集成能力,而不是一个完全独立的模型,就像人类使用同一个大脑进行快速反应和深入思考一样。这种统一的方法为用户创造了更无缝的体验。 Claude 3.7 Sonnet 现已在所有 Claude 计划(包括 Free, Pro, Team 和 Enterprise 计划)以及 Anthropic API, Amazon Bedrock 和 Google Cloud 的 Vertex AI 上提供。扩展思考模式在除免费 Claude 层级外的所有平台均可用。 Claude 3.7 Sonnet 的定价与其前代产品相同,为每百万输入 tokens 3 美元,每百万输出 tokens 15 美元,其中包括思考 tokens 。 与 Claude 3.7 Sonnet 模型一同发布的还有 Claude Code ,这是一个用于 agentic coding 的命令行工具,目前以有限的研究预览版形式提供。 Claude Code 旨在让开发者能够直接从终端将大量的工程任务委托给 Claude 完成。...

February 25, 2025 · 2 min · fisherdaddy

如何高效使用 DeepSeek-R1 这种推理模型?

Together AI 今天发布了一篇《DeepSeek-R1 Quickstart》有关如何使用DeepSeek-R1的综合指南!我看了下其中有一些内容很好,翻译了其中核心的内容分享给大家。 DeepSeek-R1 这种推理模型经过专门训练,能够在给出答案前进行逐步思考,这使得它们在复杂的推理任务中表现出色,例如编码、数学、规划、谜题和 AI 智能体的工作流程。 对于一个问题,DeepSeek-R1 会输出其思维链/推理过程(以思考 Token 的形式),这些 Token 被包含在 <think> 标签中,以及最终的答案。 由于这类模型需要消耗更多的计算资源和 Token 才能实现更好的推理能力,因此它们的输出通常更长,计算速度也更慢,成本也高于没有推理能力的对应模型。 Prompt 调优以获得最佳结果 推理模型(如 deepseek-r1、o1、o3-mini等)擅长根据已知信息进行逻辑推理和问题求解,而非推理模型(deepseek-v3、gpt-4o、claude-3.5-sonnet等)则更侧重于信息检索和模式匹配。下面我们提供一份指南,帮助你充分发挥 DeepSeek-R1 的性能: 清晰且具体的提示语 (prompts): 使用简洁明了的语言编写指令,明确表达你的需求。复杂冗长的提示语往往效果不佳。 采样参数: 建议将 temperature (温度系数) 设置在 0.5-0.7 之间 (推荐值 0.6),以避免模型产生重复或不连贯的输出。同时,top-p (概率截断) 建议设置为 0.95。 避免使用系统提示 (system prompt): 不要添加额外的系统提示语,所有指令都应包含在用户提示语中。 避免使用少量样本提示 (few-shot prompting): 不要在提示语中提供任何示例,因为这会降低模型的性能。相反,请详细描述你希望模型解决的问题、执行的任务以及输出的格式。如果确实需要提供示例,请确保示例与你的提示语要求高度一致。 组织你的提示语: 使用清晰的标记 (例如 XML 标签、Markdown 格式或带有标签的段落) 来分解提示语的不同组成部分。 这种结构化的组织方式有助于模型正确理解和处理你的每一个请求。 设置明确的要求: 当你的请求存在特定限制或标准时,请明确地进行说明 (例如 “每行文本的朗读时间不应超过 5 秒…”)。 无论是预算限制、时间限制还是特定的格式要求,都应清晰地概述这些参数,以便引导模型生成符合要求的回复。 清晰地描述输出: 详细描述你期望的输出结果。 描述具体的特征或质量,以便模型生成完全符合你需求的响应,并朝着满足这些标准的方向努力。 多数投票选择回复: 在评估模型性能时,建议生成多个解决方案,然后选择出现频率最高的结果。 避免使用思维链提示 (chain-of-thought prompting): 由于这类模型在回答问题之前会自主进行推理,因此无需指示它们“逐步思考……” 数学任务: 对于数学问题,建议在提示语中添加如下指令:“请逐步进行逻辑推理,并将最终答案置于 \boxed{} 中。” 强制使用 <think> 标签: 极少数情况下,DeepSeek-R1 可能会跳过思考过程,从而对模型性能产生负面影响。 在这种情况下,模型输出的响应将不会以 <think> 标签开头。 如果你遇到此问题,可以尝试引导模型以 <think> 标签开头。 应用场景 评估其他 大语言模型 (Benchmarking other LLMs): 评估 大语言模型 响应的上下文理解能力,这在需要严格验证的领域(如法律、金融和医疗保健)中尤为重要。 代码审查 (Code Review): 执行全面的代码分析,并针对大型代码库提出改进建议。 战略规划 (Strategic Planning): 制定详细的计划,并根据具体的任务需求选择合适的 AI 模型。 文档分析 (Document Analysis): 处理非结构化文档,并识别多个来源之间的模式和关联。 信息提取 (Information Extraction): 从大量非结构化信息中高效地提取相关数据,非常适合 RAG 系统。 歧义消除 (Ambiguity Resolution): 有效地解释不明确的指令,并在需要时主动寻求澄清,而不是直接进行猜测。 上下文和成本 在使用推理模型时,至关重要的是在上下文窗口中保持足够的空间,以便模型能够充分进行推理。推理 Token 的生成数量会因任务的复杂程度而异——简单的问题可能只需要几百个 Token,而复杂的挑战可能需要数万个 Token。...

February 20, 2025 · 1 min · fisherdaddy

【科普】大模型中常说的 token 和 Tokenizer 是指什么?

在大语言模型(LLM)日益普及的今天,我们往往关注模型的参数、结构和预训练数据,但实际上,支撑这些模型顺利理解和生成语言的一个重要环节——Tokenizer,常常被人忽视。本文将带你了解大模型中 Tokenizer 的基本概念、常见技术以及它在模型性能和效率中的关键作用,同时力求既不流于表面,也不陷入晦涩难懂的技术细节。 token 和 Tokenizer 是什么? 简单来说,Tokenizer 就是将连续的文本拆分成模型能处理的基本单位——Token 的工具,而 “token” 是模型理解和生成文本的最小单位。对于计算机来说,处理原始文本是非常困难的,因此我们需要一个中间层,把文字转换为一系列的数字序列(即,一个个离散的 token),这些 token 既可以是单个字符、词语,也可以是子词(subword)。而这个转换过程正是由 Tokenizer 完成的。 在传统的自然语言处理中,我们可能直接按照单词或字符来分割文本;而在大模型中,常见的方法则是采用子词级别(subword-level)的分割方式。这种方式既能保证足够细致(能够捕捉到拼写变化、罕见词等信息),又不会使得词表过大,进而影响模型的效率和泛化能力。 在中文中,token 通常是单个汉字(或者在某些情况下是常见词汇)。 在英文中,token 通常是一个词或单词的一部分,平均而言大约 4 个字符或 0.75 个单词,但具体拆分方式依赖于采用的 tokenizer 算法。 Tokenizer 的主要方法 目前大模型常用的 Tokenizer 方法主要包括: Byte-Pair Encoding (BPE) BPE 是目前最流行的子词分词算法之一。其核心思想是:从最基本的字符开始,不断将在训练语料中频繁共现的字符或子串合并为一个新的 Token,直到达到预设的词表大小。这种方式能够灵活处理词汇稀缺问题,同时对英文这种单词之间有明显分隔的语言效果很好。 SentencePiece SentencePiece 算法则不依赖于空格分词,适合处理中文、日文等没有明显分词边界的语言。它同样采用子词或字节级别的编码方式,保证了不同语言之间的一致性。由于其不依赖传统分词规则,因此在多语种模型中得到了广泛应用。 其他创新方法 近年来,随着大模型规模的不断扩大和应用领域的拓展,关于如何更好地进行 Tokenization 的研究也不断涌现。例如,有学者提出结合认知科学“最省力原则”构建更高效的 Tokenizer;也有工作探讨利用自适应的“Learn Your Tokens”策略,根据输入自动学习最优的分词单元。尽管这些方法尚处于探索阶段,但都表明 Tokenizer 的设计对模型的最终性能具有不容忽视的影响。 Tokenizer 对大模型的影响 模型训练效率 在大模型的训练过程中,Tokenizer 决定了输入序列的长度和词表大小。分词粒度过细(例如仅按字符分割)虽然能覆盖所有细节,但会导致序列变得冗长,使得 Transformer 中自注意力机制的计算复杂度呈平方级增长,从而大大增加训练时间和资源消耗;而分词粒度过粗(直接按单词分割)又可能无法有效处理罕见词或新词。因此,子词分词方法(如 BPE 和 SentencePiece)正好在二者之间取得了平衡,不仅能减少序列长度,还能保持语义信息。 模型效果与泛化能力 一个精心设计的 Tokenizer 不仅有助于训练速度,还能提升模型在下游任务中的表现。良好的 Tokenizer 能够保证同一语义在不同上下文下尽量映射到相似的 Token 序列,从而使模型更容易捕捉到语言中的规律和细微差别。反之,不合理的分词方式可能会使模型“误解”文本信息,导致输出不连贯甚至产生幻觉。 多语言和特殊场景 对于多语言大模型来说,如何构造一个既能覆盖英文又能适应中文、日文等其他语言的 Tokenizer,是一个具有挑战性的问题。研究表明,多语种 Tokenizer 往往需要更大的词表来处理不同语言的字符和词汇,但词表过大又可能影响模型效率。因此,如何在覆盖率与高效性之间取得平衡,是 Tokenizer 设计的重要课题。...

February 19, 2025 · 2 min · fisherdaddy

永恒的游戏 • Supercell

这篇文章是 Supercell CEO Ilkka Paananen 所写并发布到公司官网。在介绍这篇文章之前,我先给大家简单介绍一下这家公司,大家还记得前几年流行的“中台”这一概念吗?就是受到这家公司的启发而提出的。2015年中,阿里巴巴集团董事会主席马云曾带领高管团队访问 Supercell,对其小团队高效运作和强大中台支持的模式印象深刻。同年12月,阿里巴巴正式启动“大中台、小前台”战略,旨在构建创新灵活的组织和业务机制,这一战略被视为传统架构的一次进化,迅速引发了国内众多企业的效仿。然而随着实践的深入,许多企业发现中台战略在实施过程中存在业务边界模糊、响应速度下降、维护成本增加等问题,导致中台战略的实施效果并不理想。以阿里巴巴为例,尽管其通过中台战略在初期取得了一定成效,但随着业务的发展和市场环境的变化,阿里巴巴于2023年开始对组织架构进行调整,提出“1+6+N”的新架构,将原有的中台职能下放至各业务单元,强调业务的自主性和灵活性。不是说这个中台战略不好,而是各企业应结合自身实际,权衡中台的利弊,制定适合的组织架构方案。 Supercell 简介 Supercell 是一家总部位于芬兰赫尔辛基的移动游戏开发公司,成立于2010年5月14日。公司由 Ilkka Paananen 和 Mikko Kodisoja 等六位游戏行业资深人士创立。Supercell 以开发高质量的免费手游而闻名,其代表作品包括《卡通农场》(Hay Day)、《部落冲突》(Clash of Clans)、《海岛奇兵》(Boom Beach)、《皇室战争》(Clash Royale)和《荒野乱斗》(Brawl Stars)等。这些游戏在全球范围内广受欢迎,曾长期占据移动应用商店排行榜前列。 Supercell 的成功在很大程度上归功于其独特的企业文化和运营模式。公司采用小型团队(称为“细胞”)的工作方式,每个团队由5至7人组成,拥有完全的自主权来开发和管理自己的项目。这种扁平化的组织结构鼓励创新和快速迭代,使得团队能够迅速响应市场反馈。此外,Supercell 注重将游戏开发过程中公共和通用的素材、算法以及研发工具进行整合,构建了强大的中台(即后台支持系统),以支持各个小团队的高效开发。 值得一提的是,2016年,腾讯以86亿美元的价格收购了 Supercell 81.4%的股份,成为其主要股东。这进一步加强了 Supercell 在全球游戏市场的影响力。 这篇文章主要讲了什么 Supercell 在 2024 年经历了前所未有的成功和挑战。《荒野乱斗 (Brawl Stars)》表现突出,各项指标均大幅增长,证明了即使是相对“老”的游戏,只要不断改进,也能创造出“永恒的游戏”。 另一方面,新游戏《爆裂小队 (Squad Busters)》虽然收入超过 1 亿 美元,但未能达到预期,突显了当今 Supercell 和整个行业推出新游戏的挑战。尽管如此,2024 年对 Supercell 来说是最好的一年,活跃玩家超过 3 亿,所有游戏收入均同比增长。Supercell 强调团队独立性、承担风险和从失败中学习的重要性,并致力于通过 Spark 项目创建新的游戏团队,探索游戏领域的创新。 《荒野乱斗 (Brawl Stars)》的成功:各项指标(玩家、参与度和收入)翻倍甚至更多,这归功于团队的努力、更大的团队规模带来的风险承担能力,以及公司给予的自主权和长期耐心。 《爆裂小队 (Squad Busters)》的挑战:虽然收入超过 1 亿 美元,但未能达到预期,反映了在竞争激烈的移动游戏市场中推出新游戏的难度。 Supercell 认为,即使面对挑战,承担风险对于创造突破性成功至关重要。 公司业绩:活跃玩家超过 3 亿,所有游戏收入均同比增长,总收入创历史新高。 Spark 项目:Supercell 创建的团队孵化器,旨在邀请全球顶尖人才组建新的游戏团队。 该项目通过游戏 jams 和快速原型设计来评估团队,并已启动 5 个新的游戏团队。 财务数据: 收入(未计递延):28 亿 欧元(30 亿 美元),同比增长 77%。 EBITDA(未计递延):8....

February 19, 2025 · 3 min · fisherdaddy

ChatGPT 与后训练的艺术 • John Schulman & Barret Zoph

还记得 OpenAI 联合创始人 John Schulman 吗?他在去年 8 月份离开 OpenAI 加入了 Anthropic,然而仅仅六个月后,他又在今年 2 月再次离职加入了前 OpenAI CTO Mira Murati 的新创业公司 Thinking Machines Lab 。最近他和 OpenAI 前 Post-Training 负责人 Barret Zoph(他就是在去年 gpt-4o 多模态发布会上和 Mira 以及 Mark Chen 一起演示的那位兄弟,他也加入了 Mira 的公司)一起在斯坦福大学就 Post-Training 以及在 ChatGPT 的工作经验进行了分享,他把本次分享的文档共享到了 Google Docs 上,这次分享的内容对 AI 的初学者特别友好,先介绍了后训练的三个组成部分以及基础概念,然后介绍了 ChatGPT 的一些早期历史和演变以及遇到的问题,最后推荐了后训练相关的一些论文和博客,推荐大家看看。另外,我也用 geimini-2.0-flash-thinking 对本次分享做了一些摘要,也分享一下: 本次分享主要介绍了 ChatGPT 的后训练 (Post-Training) 过程,后训练是使基础模型 (Base Model) 转变为更像助手,并遵循正确输出格式的关键步骤,也是模型准备投入生产的最后阶段。相较于预训练 (Pre-Training),后训练计算成本更低,迭代周期更快,并且使用了人类反馈强化学习 (RLHF) 来调整模型以适应用户偏好。后训练的核心在于教会模型使用工具、塑造模型个性,并引入拒绝回答和安全行为。模型的行为很大程度上依赖于预训练基础模型的泛化能力。 后训练主要包含三个组成部分: 监督微调 (SFT),用于克隆人类或专家的行为; 奖励模型 (RM) 训练,用于建模人类偏好; 强化学习 (RL),使用强化学习算法根据奖励模型进行优化,并在推理过程中结合非奖励模型的其他目标。 ChatGPT 的后训练经历了从简单到复杂的发展过程。最初的 ChatGPT 模型相对简单,仅有文本输入和文本输出。随着时间推移,功能和模型显著扩展,增加了多种模型尺寸、工具交互、安全措施、持续模型训练、多模态输入输出以及大规模人类数据的使用。为了有效管理这些变化,OpenAI 采用了 “主线模型设置” (mainline model setup) 来降低风险,并频繁整合和回滚变更。...

February 18, 2025 · 4 min · fisherdaddy