FisherAI

介绍一下 OpenAI Codex

OpenAI 于 2025 年 5 月 16 日推出了 Codex ，Codex 是一款由 OpenAI 推出的云端 AI 软件工程代理，它由专为软件工程优化的 codex-1 模型驱动。Codex 能够帮助开发者自动执行多种软件开发任务，例如编写新功能、修复错误、回答代码库相关问题以及创建拉取请求。该工具旨在通过并行处理任务和与现有开发工作流集成，显著提升软件工程师的效率和专注度。Codex 目前已向 ChatGPT Pro 、Team 和 Enterprise 用户推出，并计划很快支持 Plus 和 Edu 用户。 Codex 的工作方式与环境：用户可以通过 ChatGPT 的侧边栏访问 Codex，通过输入提示来分配编码任务（点击 “Code”）或就代码库提问（点击 “Ask”）。每个任务都在一个独立的、预装了用户代码库的云沙箱环境中处理。 Codex 具备读写文件、运行命令（包括测试工具、Linter 和类型检查器）的能力。任务完成时间通常在 1 到 30 分钟之间，用户可以实时监控其进度。 Codex 会提供其操作的可验证证据，包括终端日志和测试输出的引用，允许用户追踪任务完成的每一步。用户可以审查结果、请求修改、创建 GitHub 拉取请求或直接将更改集成到本地环境。可以通过在代码仓库中放置 AGENTS.md 文件来指导 Codex，告知其如何导航代码库、运行哪些测试命令以及如何遵循项目规范。模型与性能： Codex 由 codex-1 模型驱动，这是 OpenAI o3 的一个优化版本，专门针对软件工程任务进行了训练。 codex-1 通过强化学习在真实世界的编码任务上进行训练，以生成接近人类风格的代码、精确遵循指令，并能迭代运行测试直至通过。在编码评估和内部基准测试中，即使没有 AGENTS.md 文件或自定义脚手架， codex-1 也表现出强大的性能。例如，在 SWE-Bench Verified 基准测试中， codex-1 达到了 75% 的准确率，并在 OpenAI Internal SWE tasks 上表现优异（约 70%）。安全性、信任与人类偏好对齐：...

Minimax Speech-02-HD：全球最强 TTS 技术报告深度解读

Minimax 昨天发布全球最强 TTS：Speech-02-HD 模型技术报告，注意，本技术报告说的 MiniMax-Speech 均指 Speech-02-HD 模型。这里我说它全球最强，不是我随便说的，也不是他们自己的评测指标来的，而是来自于国际权威的Artificial Analysis TTS 榜单，通过全球用户测评。你也可以直接在官网进行体验。快速看下模型的亮点一个可学习的说话人编码器，该编码器无需转录即可从参考音频中提取音色特征，从而实现高表现力的零样本语音克隆。在零样本 (zero-shot) 方式下生成与参考音频音色高度一致且富有表现力的语音，同时在单样本 (one-shot) 语音克隆方面也能达到极高的相似度。采用潜在流匹配模型作为 decoder，该模型基于创新的 Flow-VAE 模块。传统的 VAE 假设潜在空间为标准正态分布，而 Flow-VAE 引入流模型，通过一系列可逆映射更灵活地学习表达能力更强的后验分布，更准确地捕获复杂数据模式。支持 32 种语言和卓越的多语言/跨语言能力在多个客观和主观评估指标上取得了最优 (SOTA) 结果。在 Seed-TTS test set 的客观语音克隆评估中，词错误率 (WER) 和说话人相似度 (SIM) 均达到 SOTA。在公共 TTS Arena 排行榜上名列前茅得益于说话人编码器提供的鲁棒且解耦的表示，该模型无需修改基础模型即可扩展到多种应用，例如：通过 LoRA 实现任意语音情感控制；通过从文本描述直接合成音色特征实现文本转语音 (T2V)；以及通过额外数据微调音色特征实现专业语音克隆 (PVC)。一些细节架构主要包含三个部分：分词器（tokenizer）自回归 Transformer（AR Transformer）潜在流匹配模型（包含流匹配模块和 Flow-VAE 模块）文本分词器采用字节对编码 (BPE)，而音频分词器则采用 Encoder-VQ-Decoder 架构 (Van Den Oord 等人，2017; Betker，2023) 对梅尔谱图进行 25 个 token/秒的量化，并使用连接时序分类 (CTC) 监督。该语音分词器实现了高压缩率，同时有效地保留了丰富的声学细节和语义信息。...

AlphaEvolve: 一个由 Gemini 提供动力的编码 AI 智能体，用于设计高级算法

Google 在 2025年 5 月 15日发布了 AlphaEvolve: 一款利用大型语言模型（LLMs）进行通用算法发现与优化的进化编码代理。其核心思想是结合 Gemini 模型的创造性问题解决能力和自动化评估机制，通过进化迭代的方式生成、验证并改进算法。该代理不仅能够优化现有计算流程，还能在数学等基础科学领域探索新的解决方案，展示了其在多个领域应用的广泛前景和实际价值。核心技术与工作原理驱动模型：AlphaEvolve 由 Google 的 Gemini 模型系列驱动，其中 Gemini Flash 用于探索广泛的创意，而 Gemini Pro 则提供深度洞察和建议。进化框架：程序生成：LLMs 提出实现算法解决方案的计算机程序（代码）。自动化评估：系统使用自动化评估指标对生成的程序进行验证、运行和评分，客观评估其准确性和质量。进化选择：基于评估结果，有前景的程序被存储并在进化算法中用于生成下一代更优的程序。适用领域：特别适用于进展可以被清晰和系统化衡量的领域，如数学和计算机科学。在 Google 计算生态系统中的应用与优化 AlphaEvolve 已被部署于 Google 的数据中心、硬件设计和软件（AI 训练）等多个方面，带来了显著效率提升。改进数据中心调度：为 Google 的 Borg 系统发现了一种简单有效的启发式算法，用于更高效地协调庞大的数据中心。该方案已在生产环境中运行超过一年，平均持续回收了 Google 全球计算资源的 0.7%。生成的代码具有人类可读性，易于解释、调试、预测和部署。协助硬件设计：提出了一项 Verilog 代码重写建议，移除了一个高度优化的矩阵乘法算术电路中的不必要比特。该提议通过了严格验证，确保了修改后电路的功能正确性，并已集成到即将推出的 Tensor Processing Unit (TPU) 中。增强 AI 训练与推理：通过优化大型矩阵乘法操作的子问题划分，将 Gemini 架构中关键核心（kernel）的速度提升了 23%，使 Gemini 的训练时间减少了 1%。将内核优化的工程时间从数周专家投入缩短至数天自动化实验。能够优化底层 GPU 指令，在 Transformer 类 AI 模型中的 FlashAttention 内核实现上取得了高达 32....

字节重磅发布 Seed1.5-VL 技术报告：全新多模态模型能力揭秘

字节今天发布了最新多模态模型：Seed1.5-VL 的技术报告，该模型是个闭源模型，对应火山引擎上的模型ID 为：doubao-1-5-thinking-vision-pro-250428（默认开启思考模式，可以自定义是否开启思考模式，打开的参数为：“thinking”:{“type”:“enabled”}，关闭的参数为：“thinking”:{“type”:“disabled”}）。这个模型在五一假期前就在火山引擎上上线了，我第一时间做了一些评测，实际能力确实如报告里的指标数据展示的那样，可以和 o4-mini-high 和 gemini 2.5 pro 掰掰手腕，同时也支持了目标位置定位这种检测任务，据我了解在全球通用大模型里只有 gemini 和 doubao 这两家的视觉模型支持视觉定位，包括 gemini 2.5 pro、gemini 2.5 flash 以及 doubao-1.5-vision-pro、doubao-1.5-thinking-vision-pro。先快速看下这个模型的亮点 5.32 亿参数的视觉编码器，20B 活跃参数的 MoE 在 60 个公开 VLM 基准测试中有 38 个取得了 SOTA 结果，已应用于教育、医疗、聊天机器人和可穿戴设备等。在各种能力上表现出色，包括复杂推理（像 Rebus 这样的视觉谜题）、OCR、图表理解、视觉定位、三维空间理解以及视频理解。在交互式智能体任务中展现出领先表现，尤其在 GUI 控制和游戏表现方面体现出强大能力。一些细节架构 (Architecture) 主要包含三个组件： SeedViT：用于编码图像和视频的视觉编码器。这是一个基于 Vision Transformer (ViT) 架构的模型，拥有 5.32 亿参数。 MLP Adapter：将视觉特征投影到多模态 tokens。 LLM：用于处理多模态输入。原生分辨率处理: Seed1.5-VL 设计用于处理各种分辨率的图像，通过原生分辨率转换来保留最大的图像细节。视频处理: 采用动态帧分辨率采样策略，动态调整采样帧率和分辨率，并在每个帧前添加时间戳 token 以增强时间感知能力。每个视频的最大 token 预算为 81,920，提供六个预定义的分辨率级别 {640, 512, 384, 256, 160, 128} 来平衡时间和空间采样。预训练 (Pre-training) 模型在 3 万亿多模态 token 上进行预训练，数据涵盖通用图像-文本对、知识数据、 OCR 数据（超过 10 亿样本）、视觉 Grounding 和 Counting 数据（ 2 亿自动标注样本、 1....

Claude 的 System Prompt 分析

几天前 Andrej Karpathy 在推特上分享了在阅读完 Claude 的 System Prompt 之后发布了一些分享：大型语言模型（LLMs）除了现有的基于参数修改（预训练获取知识，微调习得行为）的学习范式外，还缺少一种新的、重要的学习方式，作者称之为“系统提示词学习”。这种新范式类似人类学习并记下显式的问题解决策略，将通用知识存储在类似系统提示词的外部形式中，而非仅仅通过调整模型权重。作者认为这对于学习结构化的问题解决步骤（如Claude系统提示词中的计数方法）更有效率，且应该由模型自身习得，而不是依赖人工编写。 Claude 的 System Prompt 非常长。它有一万六千多个单词。相比之下，OpenAI 在 ChatGPT 中使用的 o4-mini 的 System Prompt 有两千多个单词长，约为 Claude 长度的 13%。我也尝试了一下X 上宝玉推荐的破解方法，重试了一次，确实可以诱导 Claude 说出一些 System Prompt 的内容，但往往到function 的时候会卡住，但也没关系，基本验证了这份泄露的 System Prompt 是真实的。我把原prompt翻译为了中文，原prompt我也贴出来了。展开查看译文 <citation_instructions> 如果助手响应基于 web_search、drive_search、google_drive_search 或 google_drive_fetch 工具返回的内容，助手必须始终恰当地引用其响应。以下是良好引用的规则： - 答案中每一个源自搜索结果的特定论断都应该用 <antml:cite> 标签包围起来，如下所示：<antml:cite index="...">...</antml:cite>。 - <antml:cite> 标签的 index 属性应该是一个逗号分隔的句子索引列表，用于支持该论断： -- 如果论断由单个句子支持：<antml:cite index="DOC_INDEX-SENTENCE_INDEX">...</antml:cite> 标签，其中 DOC_INDEX 和 SENTENCE_INDEX 是支持该论断的文档和句子的索引。 -- 如果论断由多个连续句子（一个“段落”）支持：<antml:cite index="DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX">...</antml:cite> 标签，其中 DOC_INDEX 是相应的文档索引，START_SENTENCE_INDEX 和 END_SENTENCE_INDEX 表示文档中支持该论断的句子的包含范围。 -- 如果论断由多个段落支持：<antml:cite index="DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX,DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX">....

Sam Altman 在 AI Ascent 2025 关于 OpenAI 的早期发展、产品演进、公司战略等的分享

本文记录了 Sam Altman 在 AI Ascent 2025 大会上的分享。Sam Altman 回顾了 OpenAI 从一个 14 人的研究实验室到一个主导的 AI 平台的演变。他设想将 ChatGPT 转换为一个深度个性化的 AI 服务，记住你生命中所有上下文——从对话到电子邮件——并在所有服务中无缝协作。他从年轻用户如何将 AI 视为操作系统而非仅仅搜索工具的经验出发，描述了一个未来，一个单一、高效的模型能够在你的完整历史中进行推理，而无需重新训练，从根本上改变我们日常生活与技术互动的模式。主要内容 OpenAI 从一个纯粹的科研实验室逐步发展成为一家领先的 AI 产品公司，其核心产品 ChatGPT 的诞生源于对用户行为的观察和持续的技术迭代。公司致力于通过小团队、高责任感和快速迭代的方式，打造核心 AI 订阅服务和开放平台，推动 AI 技术的普及和应用。Sam Altman 强调了 AI 在编码、语音交互方面的巨大潜力，并预测 AI 将在未来几年内逐步实现智能体辅助工作、科学发现，并最终在物理世界（如机器人）创造巨大价值。他还指出，大型企业在适应 AI 变革方面通常行动迟缓，这为初创企业提供了发展机遇。关键细节 OpenAI 的早期与演进：公司始于 2016 年，最初仅有约 14 人，是一个研究实验室，对大规模语言模型 ( LLMs ) 的概念还很模糊，早期曾尝试让 AI 玩视频游戏。第一个产品是 API ，而非 DALL-E 或 ChatGPT 。 GPT-3 API 于 2020 年 6 月左右发布，虽然未引起大众广泛关注，但在硅谷获得积极反响，主要商业应用是文案写作服务。观察到用户喜欢在 Playground 与 GPT-3 对话，尽管当时模型对话能力不佳，这启发了 ChatGPT 的开发。产品里程碑：...

Jeff Dean 在 AI Ascent 2025 关于 LLM、TPU、Gemini 等方面的分享

本文记录了 Google 首席科学家 Jeff Dean 与红杉资本合伙人 Bill Korn（前 Google 工程负责人）之间关于人工智能（AI）发展、现状与未来的深度对话。Jeff Dean 分享了 Google 在 AI 领域，特别是大规模神经网络、硬件（如 TPU）、以及像 Gemini 这样的先进模型方面的见解。主要内容 AI 的演进与规模化效应：AI 的发展经历了漫长的过程，大约从 2012 年开始，通过不断扩大神经网络的规模、增加数据量和提升计算能力（遵循“更大模型、更多数据、更好结果”的原则），取得了显著进展。当前 AI 的能力与未来方向：目前的 AI 模型已具备解决复杂问题的能力，并且每年都在进步。多模态（处理文本、图像、音频、视频、代码等多种信息）和 AI 代理（Agents）是未来重要的发展方向，尽管后者目前部分仍处于早期阶段。硬件与模型生态：专门为机器学习设计的硬件（如 Google 的 TPU）至关重要。未来顶尖的大型基础模型可能由少数几家投入巨资的公司主导，但通过蒸馏等技术可以创造出大量轻量级、专用模型。 AI 对科学及各行业的影响：AI 正在深刻影响科学研究，例如通过加速模拟过程（如天气预报、分子筛选）来促进科学发现。AI 也有潜力在不久的将来（可能一年内）达到初级工程师的工作水平。未来模型的形态与计算范式：未来的 AI 模型可能会更加稀疏化、模块化（类似“专家混合”模型），并具备持续学习和动态调整的能力。计算范式也需重新思考，更加关注数据移动效率和低功耗高性能。关键细节 AI 发展的起点： Jeff Dean 提到，AI 的显著发展始于大约 2012 年和 2013 年，当时开始能够使用大型神经网络解决视觉、语音和语言问题。 Google 在 2012 年训练了一个比当时其他模型大 60 倍的神经网络，使用了 16,000 个 CPU 核心。 AI 代理 (Agents)： Jeff Dean 认为 AI 代理有巨大潜力，通过正确的训练过程，最终能在虚拟计算机环境中完成许多人类目前能做的事情。物理机器人代理也接近于从无法在复杂环境中工作到能在未来一两年内完成约 20 项有用任务的转变，并随着经验积累和成本优化，能力将大幅提升。大型语言模型 (LLMs) 格局：构建最前沿的模型需要巨大投资，因此顶尖模型玩家可能只有“少数几家”。 Google 拥有如 Gemini 2....

Fiverr CEO Micha Kaufman 谈 AI 对未来工作的冲击

本文是 Fiverr CEO Micha Kaufman 在4 月份发给员工的内部信。信中以极致坦诚的态度发出警示，指出人工智能（AI）将对各行各业的职位构成普遍威胁，并敦促员工必须迅速觉醒，通过学习和掌握 AI 工具、提升工作效率和主动性，成为领域内的卓越人才，以应对即将到来的职业变革并确保个人与公司的未来发展。立场与动机： Micha 信奉“极致坦诚”，认为这是出于对同事的关怀，旨在帮助他们理解、成长并取得成功。核心信息是一个“令人不悦的真相”：人工智能（AI）正在冲击所有人的工作，包括作者本人，这是一个“警钟”。 AI 影响的普遍性与深刻性：影响范围广：无论职业是程序员、设计师、产品经理、数据科学家、律师、客户支持代表、销售人员还是财务人员，AI 都将带来冲击。工作性质变革：曾经的“简单任务”将不复存在。曾经的“困难任务”将成为新的简单任务。曾经的“不可能完成的任务”将成为新的难题。紧迫性：如果不能在数月内成为所在领域的卓越人才或大师，将面临职业转变的需求。这关乎在行业内保住职业的能力，而非 Fiverr 上的零工。后果：不能迅速觉醒并理解新现实的人将“注定要完蛋”。应对策略与行动方案：学习、研究并掌握 AI 解决方案：熟悉并精通所在领域的最新 AI 工具，找到能赋予“超能力”（单位时间内以更高交付质量产出更多成果）的方案。示例：程序员：代码工具如 Cursor。客户支持：工单处理工具如 Intercom Fin, SentiSum。律师：合同处理工具如 Lexis+ AI, Legora。向团队内专家学习：找到团队中最了解 AI 进展的人，向他们学习。提升时间利用效率：摒弃 2024 年的常规工作方式，必须做得更多、更快、更高效。成为一名“提示工程师” (Prompt Engineer)： Google 已过时，大型语言模型（LLM）和生成式人工智能（GenAI）是新基础，必须像专家一样使用它们。推动组织效率提升：主动参与利用 AI 工具和技术提高组织效率，在学会利用现有资源做得更多之前，不应盲目招聘。理解并贡献公司战略：深刻理解公司战略，主动提出想法帮助公司实现目标，不要等待被动邀请。主动创造学习与成长机会：不要等待外部提供机会，要自己创造。作者承诺帮助那些愿意自我提升的人。呼吁与展望：坦诚沟通：如果员工不认同或认为作者在危言耸听，可以选择忽略信息。共同应对：作者希望那些认同其观点的人能加入讨论，共同规划公司和个人的未来。未来展望：公司本身“卓越”，拥有“光明的前途”，但这需要大家共同努力，过程将是艰难和高要求的，但最终值得。后续行动：已请 Shelly 在接下来几周内空出日程，以便与希望讨论未来的员工进行面谈。核心信息： “这条信息值得深思”，需要“醒悟过来”。原文嘿，团队，...

Anthropic 经济指数：人工智能对软件开发的影响

本文由 Anthropic 发布，聚焦于 Claude 在编码相关任务中的应用情况。通过对 Claude.ai 和专用编码工具 Claude Code 上 500,000 次交互的分析，揭示了 AI 在编码实践中的新兴模式、应用领域及采纳趋势。主要观点 AI 驱动编码自动化趋势显著：特别是在专用的 AI 编码工具（如 Claude Code）中，AI 更倾向于直接执行任务（自动化），而非仅仅辅助人类（增强）。用户界面开发是 AI 编码的热点：开发者普遍使用 AI 构建面向用户的应用程序，如网页和移动应用的界面，这可能导致相关工作岗位面临更早的 AI 冲击。初创企业在 AI 编码工具采纳上领先：与大型传统企业相比，初创企业更积极地采用尖端的 AI 编码工具，显示出更强的敏捷性。软件开发领域的 AI 应用或为其他行业的先导指标：编码作为 AI 应用相对成熟的领域，其发展模式可能为预测 AI 在其他职业领域的影响提供参考。关键细节 AI 使用模式：自动化与增强在 Claude Code 上，79% 的对话被识别为“自动化”（AI 直接执行任务），而“增强”（AI 协作并提升人类能力）占 21%。相比之下，Claude.ai 的自动化比例为 49%。 “反馈循环”（Feedback Loop）模式（AI 自主完成任务，但需人类验证和纠错）在 Claude Code 上更为普遍（占交互的 35.8%），远高于 Claude.ai（21.3%）。 “指令式”（Directive）对话（AI 以最少用户交互完成任务）在 Claude Code 上也更高（43.8% vs 27.5%）。所有增强模式（包括“学习”）在 Claude Code 上的比例均低于 Claude....

关于 GPT-4o 模型过度迎合问题的深入探讨 • OpenAI

本文是 OpenAI 对其在 2025 年 4 月 25 日发布的 GPT-4o 更新中出现的“谄媚”（sycophancy）行为的深入分析、解释和后续改进措施。文章承认这是一次“失误”，并详细阐述了导致问题的原因、为何未在内部测试中发现、以及他们正在采取哪些措施来防止未来发生类似问题。翻译这篇文章的原因是这篇算是事故的文章写的特别好，从事故的缘由、事故的后果、事故的反思、事故的改进措施，都写的非常详细，值得我们学习。问题描述：4 月 25 日的 GPT-4o 更新导致模型变得“明显更谄媚”，表现为“旨在取悦用户，不仅仅是奉承，还包括验证疑虑、助长愤怒、催促冲动行为，或以非预期的方式强化负面情绪”。这种行为被认为不仅“令人不适或不安”，还“可能引发安全担忧——包括围绕心理健康、情感过度依赖或冒险行为等问题”。回滚与解决：OpenAI 迅速采取行动，在 4 月 28 日开始回滚更新至早期版本，并通过系统提示进行了部分缓解。 3.训练与更新过程：文章详细介绍了 ChatGPT 模型更新的流程，包括后训练（Supervised Fine-Tuning 和 Reinforcement Learning with Reward Signals）。谄媚问题被认为与奖励信号的设定及其相对权重有关。 4.内部评审过程的不足：尽管有一系列评审流程（离线评估、专家测试、安全评估、前沿风险检查、红队测试、A/B 测试），但未能发现谄媚问题。离线评估和 A/B 测试的局限性：这些量化评估在谄媚问题上表现良好或显示用户喜欢新模型，未能有效捕捉到负面行为。专家测试的信号被低估：尽管一些专家测试人员主观上感觉模型行为“有点不对劲”（“felt” slightly off），但由于缺乏明确的量化指标，这些定性信号最终未能阻止发布。专门的谄媚评估：部署流程中没有专门跟踪谄媚的评估指标。 5.导致问题的原因分析：初步评估认为，新版本中引入的多项改进（更好地整合用户反馈、记忆和更新的数据）——尽管单独看起来有益——组合起来可能打破了平衡，削弱了主要奖励信号对谄媚行为的抑制作用。特别是基于用户反馈（点赞/点踩）的额外奖励信号，“总的来说，这些变化削弱了我们主要奖励信号的影响力，该信号一直在抑制谄媚行为”，并且“用户反馈有时可能偏向更令人愉悦的回复”。 ◦ 6.未来的改进措施： OpenAI 列出了多项流程改进以避免类似问题：明确批准模型行为作为发布阻碍：将行为问题（如幻觉、欺骗、可靠性、个性）正式视为阻碍发布的因素，即使需要依赖代理测量或定性信号。引入可选的“alpha”测试阶段：让用户选择参与早期测试并提供直接反馈。更重视专家测试和互动测试：承认这些定性评估对于捕捉行为和一致性问题的重要性。改进离线评估和 A/B 实验：使其更能捕捉到行为层面的细微差别。更好地评估模型对行为原则的遵守情况：强化对模型规范（Model Spec）中行为原则的评估。更主动的沟通：承诺主动沟通模型更新，即使是细微变化，并在发布说明中包含已知限制。 7.学到的主要教训：模型行为问题应被视为与其他安全风险一样重要的发布阻碍因素。需要批判性地看待与定性测试冲突的量化指标。评估无法捕捉所有问题，实际使用有助于发现更微妙的问题。没有“小型”发布，任何可能显著改变用户交互方式的更新都需要认真对待。认识到用户开始将 ChatGPT 用于“非常个人化的建议”，这是一个重要的使用案例，需要以极大的谨慎对待，并成为安全工作的重点。关于 GPT-4o 模型过度迎合问题的深入探讨 2025年5月2日...