👋 Welcome to fisherdaddy’s blog!
- 精心翻译的优质博客内容
- 前沿技术分享
- 认知分享
📚 博客内容:
- 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
- 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
- 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。
👋 Welcome to fisherdaddy’s blog!
📚 博客内容:
Anthropic 于2025年5月23日推出了新一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4,它们在编码、高级推理和 AI 代理方面树立了新标准。Claude Opus 4 被誉为全球最佳编码模型,擅长处理复杂和长时间运行的任务,而 Claude Sonnet 4 则是对 Sonnet 3.7 的重大升级,在编码和推理方面表现卓越。两款模型都增强了工具使用、并行工具执行和记忆能力。此外,Claude Code 现已全面上市,旨在将 Claude 的强大功能融入开发工作流程。这些模型旨在成为能够维持完整上下文并专注于长期项目的“虚拟协作伙伴”。 模型性能与应用: Claude Opus 4: 在 SWE-bench 上得分 72.5% ,在 Terminal-bench 上得分 43.2% ,被 Cursor 、Replit 、Block 、Rakuten 和 Cognition 等公司认可为在编码和复杂问题解决方面的领先者,能够持续工作数小时。 Claude Sonnet 4: 在 SWE-bench 上得分 72.7% ,提供性能与效率的平衡。GitHub 将其作为 GitHub Copilot 中新编码代理的模型。Manus 、iGent 、Sourcegraph 和 Augment Code 等公司也对其在遵循复杂指令、自主应用开发和代码质量方面的提升表示赞赏。 新增功能: 工具使用与扩展思考: 两款模型均支持在扩展思考过程中使用工具(如网络搜索),实现推理与工具使用的交替。 并行工具执行: 能够同时使用多个工具。 记忆能力提升: 特别是 Opus 4 ,在获得本地文件访问权限时,能创建和维护“记忆文件”以存储关键信息,从而提升长期任务意识和连贯性(例如,在玩 Pokémon 时创建“导航指南”)。 行为改进: 相较于 Sonnet 3....
2025 年 Google I/O 大会首日以 “从研究到现实(From research to reality)” 为主题,重点聚焦 AI 生态。第一天发布了大量的 AI 相关的强的不得了的功能,让人目不暇接,可以说是脚踢 OpenAI,吊打 Claude 和 Perplexity 这一帮 AI 新秀了,老大哥的技术底蕴还是够强。话不多说,让我们快看一些到底发布了哪些内容吧。 Gemini 2.5 模型更新 Gemini 2.5 Pro 已成为编码和学习领域的领先模型,而 2.5 Flash 则在效率和速度方面得到显著优化。此次更新引入了多项新能力,包括实验性的高级推理模式 Deep Think 、原生的音频输出、计算机使用功能以及增强的安全防护。 Gemini 2.5 Pro 性能提升: 在 WebDev Arena 编码排行榜上以 ELO 分数 1415 排名第一。 在 LMArena 的所有排行榜上均表现出色,评估结果显示人类偏好度高。 拥有 1 百万- token 上下文窗口,在长上下文和视频理解方面达到领先水平。 整合 LearnLM 后,成为学习领域的领先模型,在教育专家评估中优于其他模型。 Deep Think (2.5 Pro 的实验性模式): 一种增强推理模式,通过考虑多个假设来回应。 在 2025 USAMO (数学基准)上获得高分。 在 LiveCodeBench (竞赛级编码基准)上领先。 在 MMMU (多模态推理)上得分 84....
OpenAI 于 2025 年 5 月 16 日推出了 Codex ,Codex 是一款由 OpenAI 推出的云端 AI 软件工程代理,它由专为软件工程优化的 codex-1 模型驱动。Codex 能够帮助开发者自动执行多种软件开发任务,例如编写新功能、修复错误、回答代码库相关问题以及创建拉取请求。该工具旨在通过并行处理任务和与现有开发工作流集成,显著提升软件工程师的效率和专注度。Codex 目前已向 ChatGPT Pro 、Team 和 Enterprise 用户推出,并计划很快支持 Plus 和 Edu 用户。 Codex 的工作方式与环境: 用户可以通过 ChatGPT 的侧边栏访问 Codex,通过输入提示来分配编码任务(点击 “Code”)或就代码库提问(点击 “Ask”)。 每个任务都在一个独立的、预装了用户代码库的云沙箱环境中处理。 Codex 具备读写文件、运行命令(包括测试工具、Linter 和类型检查器)的能力。 任务完成时间通常在 1 到 30 分钟之间,用户可以实时监控其进度。 Codex 会提供其操作的可验证证据,包括终端日志和测试输出的引用,允许用户追踪任务完成的每一步。 用户可以审查结果、请求修改、创建 GitHub 拉取请求或直接将更改集成到本地环境。 可以通过在代码仓库中放置 AGENTS.md 文件来指导 Codex,告知其如何导航代码库、运行哪些测试命令以及如何遵循项目规范。 模型与性能: Codex 由 codex-1 模型驱动,这是 OpenAI o3 的一个优化版本,专门针对软件工程任务进行了训练。 codex-1 通过强化学习在真实世界的编码任务上进行训练,以生成接近人类风格的代码、精确遵循指令,并能迭代运行测试直至通过。 在编码评估和内部基准测试中,即使没有 AGENTS.md 文件或自定义脚手架, codex-1 也表现出强大的性能。例如,在 SWE-Bench Verified 基准测试中, codex-1 达到了 75% 的准确率,并在 OpenAI Internal SWE tasks 上表现优异(约 70%)。 安全性、信任与人类偏好对齐:...
Minimax 昨天发布全球最强 TTS:Speech-02-HD 模型 技术报告,注意,本技术报告说的 MiniMax-Speech 均指 Speech-02-HD 模型。这里我说它全球最强,不是我随便说的,也不是他们自己的评测指标来的,而是来自于国际权威的Artificial Analysis TTS 榜单,通过全球用户测评。你也可以直接在官网进行体验。 快速看下模型的亮点 一个可学习的说话人编码器,该编码器无需转录即可从参考音频中提取音色特征,从而实现高表现力的零样本语音克隆。在 零样本 (zero-shot) 方式下生成与参考音频音色高度一致且富有表现力的语音,同时在 单样本 (one-shot) 语音克隆方面也能达到极高的相似度。 采用潜在流匹配模型作为 decoder,该模型基于创新的 Flow-VAE 模块。传统的 VAE 假设潜在空间为标准正态分布,而 Flow-VAE 引入流模型,通过一系列可逆映射更灵活地学习表达能力更强的后验分布,更准确地捕获复杂数据模式。 支持 32 种语言和卓越的多语言/跨语言能力 在多个客观和主观评估指标上取得了 最优 (SOTA) 结果。在 Seed-TTS test set 的客观语音克隆评估中,词错误率 (WER) 和 说话人相似度 (SIM) 均达到 SOTA。在公共 TTS Arena 排行榜上名列前茅 得益于说话人编码器提供的鲁棒且解耦的表示,该模型无需修改基础模型即可扩展到多种应用,例如:通过 LoRA 实现任意语音情感控制;通过从文本描述直接合成音色特征实现 文本转语音 (T2V);以及通过额外数据微调音色特征实现 专业语音克隆 (PVC)。 一些细节 架构 主要包含三个部分: 分词器(tokenizer) 自回归 Transformer(AR Transformer) 潜在流匹配模型(包含流匹配模块和 Flow-VAE 模块) 文本分词器采用字节对编码 (BPE),而音频分词器则采用 Encoder-VQ-Decoder 架构 (Van Den Oord 等人,2017; Betker,2023) 对梅尔谱图进行 25 个 token/秒的量化,并使用连接时序分类 (CTC) 监督。该语音分词器实现了高压缩率,同时有效地保留了丰富的声学细节和语义信息。...
Google 在 2025年 5 月 15日 发布了 AlphaEvolve: 一款利用大型语言模型(LLMs)进行通用算法发现与优化的进化编码代理。其核心思想是结合 Gemini 模型的创造性问题解决能力和自动化评估机制,通过进化迭代的方式生成、验证并改进算法。该代理不仅能够优化现有计算流程,还能在数学等基础科学领域探索新的解决方案,展示了其在多个领域应用的广泛前景和实际价值。 核心技术与工作原理 驱动模型:AlphaEvolve 由 Google 的 Gemini 模型系列驱动,其中 Gemini Flash 用于探索广泛的创意,而 Gemini Pro 则提供深度洞察和建议。 进化框架: 程序生成:LLMs 提出实现算法解决方案的计算机程序(代码)。 自动化评估:系统使用自动化评估指标对生成的程序进行验证、运行和评分,客观评估其准确性和质量。 进化选择:基于评估结果,有前景的程序被存储并在进化算法中用于生成下一代更优的程序。 适用领域:特别适用于进展可以被清晰和系统化衡量的领域,如数学和计算机科学。 在 Google 计算生态系统中的应用与优化 AlphaEvolve 已被部署于 Google 的数据中心、硬件设计和软件(AI 训练)等多个方面,带来了显著效率提升。 改进数据中心调度: 为 Google 的 Borg 系统发现了一种简单有效的启发式算法,用于更高效地协调庞大的数据中心。 该方案已在生产环境中运行超过一年,平均持续回收了 Google 全球计算资源的 0.7%。 生成的代码具有人类可读性,易于解释、调试、预测和部署。 协助硬件设计: 提出了一项 Verilog 代码重写建议,移除了一个高度优化的矩阵乘法算术电路中的不必要比特。 该提议通过了严格验证,确保了修改后电路的功能正确性,并已集成到即将推出的 Tensor Processing Unit (TPU) 中。 增强 AI 训练与推理: 通过优化大型矩阵乘法操作的子问题划分,将 Gemini 架构中关键核心(kernel)的速度提升了 23%,使 Gemini 的训练时间减少了 1%。 将内核优化的工程时间从数周专家投入缩短至数天自动化实验。 能够优化底层 GPU 指令,在 Transformer 类 AI 模型中的 FlashAttention 内核实现上取得了高达 32....
字节今天发布了最新多模态模型:Seed1.5-VL 的技术报告,该模型是个闭源模型,对应火山引擎上的 模型ID 为:doubao-1-5-thinking-vision-pro-250428(默认开启思考模式,可以自定义是否开启思考模式,打开的参数为:“thinking”:{“type”:“enabled”},关闭的参数为:“thinking”:{“type”:“disabled”})。这个模型在五一假期前就在火山引擎上上线了,我第一时间做了一些评测,实际能力确实如报告里的指标数据展示的那样,可以和 o4-mini-high 和 gemini 2.5 pro 掰掰手腕,同时也支持了目标位置定位这种检测任务,据我了解在全球通用大模型里只有 gemini 和 doubao 这两家的视觉模型支持视觉定位,包括 gemini 2.5 pro、gemini 2.5 flash 以及 doubao-1.5-vision-pro、doubao-1.5-thinking-vision-pro。 先快速看下这个模型的亮点 5.32 亿参数的视觉编码器,20B 活跃参数的 MoE 在 60 个公开 VLM 基准测试中有 38 个取得了 SOTA 结果,已应用于教育、医疗、聊天机器人和可穿戴设备等。 在各种能力上表现出色,包括复杂推理(像 Rebus 这样的视觉谜题)、OCR、图表理解、视觉定位、三维空间理解以及视频理解。 在交互式智能体任务中展现出领先表现,尤其在 GUI 控制和游戏表现方面体现出强大能力。 一些细节 架构 (Architecture) 主要包含三个组件: SeedViT: 用于编码图像和视频的视觉编码器。这是一个基于 Vision Transformer (ViT) 架构的模型,拥有 5.32 亿参数。 MLP Adapter: 将视觉特征投影到多模态 tokens。 LLM: 用于处理多模态输入。 原生分辨率处理: Seed1.5-VL 设计用于处理各种分辨率的图像,通过原生分辨率转换来保留最大的图像细节。 视频处理: 采用动态帧分辨率采样策略,动态调整采样帧率和分辨率,并在每个帧前添加时间戳 token 以增强时间感知能力。每个视频的最大 token 预算为 81,920,提供六个预定义的分辨率级别 {640, 512, 384, 256, 160, 128} 来平衡时间和空间采样。 预训练 (Pre-training) 模型在 3 万亿多模态 token 上进行预训练,数据涵盖通用图像-文本对、知识数据、 OCR 数据(超过 10 亿样本)、视觉 Grounding 和 Counting 数据( 2 亿自动标注样本、 1....
几天前 Andrej Karpathy 在推特上分享了在阅读完 Claude 的 System Prompt 之后发布了一些分享:大型语言模型(LLMs)除了现有的基于参数修改(预训练获取知识,微调习得行为)的学习范式外,还缺少一种新的、重要的学习方式,作者称之为“系统提示词学习”。这种新范式类似人类学习并记下显式的问题解决策略,将通用知识存储在类似系统提示词的外部形式中,而非仅仅通过调整模型权重。作者认为这对于学习结构化的问题解决步骤(如Claude系统提示词中的计数方法)更有效率,且应该由模型自身习得,而不是依赖人工编写。 Claude 的 System Prompt 非常长。它有 一万六千多个单词。相比之下,OpenAI 在 ChatGPT 中使用的 o4-mini 的 System Prompt 有两千多个单词长,约为 Claude 长度的 13%。 我也尝试了一下X 上宝玉推荐的破解方法,重试了一次,确实可以诱导 Claude 说出一些 System Prompt 的内容,但往往到function 的时候会卡住,但也没关系,基本验证了这份泄露的 System Prompt 是真实的。我把原prompt翻译为了中文,原prompt我也贴出来了。 展开查看译文 <citation_instructions> 如果助手响应基于 web_search、drive_search、google_drive_search 或 google_drive_fetch 工具返回的内容,助手必须始终恰当地引用其响应。以下是良好引用的规则: - 答案中每一个源自搜索结果的特定论断都应该用 <antml:cite> 标签包围起来,如下所示:<antml:cite index="...">...</antml:cite>。 - <antml:cite> 标签的 index 属性应该是一个逗号分隔的句子索引列表,用于支持该论断: -- 如果论断由单个句子支持:<antml:cite index="DOC_INDEX-SENTENCE_INDEX">...</antml:cite> 标签,其中 DOC_INDEX 和 SENTENCE_INDEX 是支持该论断的文档和句子的索引。 -- 如果论断由多个连续句子(一个“段落”)支持:<antml:cite index="DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX">...</antml:cite> 标签,其中 DOC_INDEX 是相应的文档索引,START_SENTENCE_INDEX 和 END_SENTENCE_INDEX 表示文档中支持该论断的句子的包含范围。 -- 如果论断由多个段落支持:<antml:cite index="DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX,DOC_INDEX-START_SENTENCE_INDEX:END_SENTENCE_INDEX">....
本文记录了 Sam Altman 在 AI Ascent 2025 大会上的分享。Sam Altman 回顾了 OpenAI 从一个 14 人的研究实验室到一个主导的 AI 平台的演变。他设想将 ChatGPT 转换为一个深度个性化的 AI 服务,记住你生命中所有上下文——从对话到电子邮件——并在所有服务中无缝协作。他从年轻用户如何将 AI 视为操作系统而非仅仅搜索工具的经验出发,描述了一个未来,一个单一、高效的模型能够在你的完整历史中进行推理,而无需重新训练,从根本上改变我们日常生活与技术互动的模式。 主要内容 OpenAI 从一个纯粹的科研实验室逐步发展成为一家领先的 AI 产品公司,其核心产品 ChatGPT 的诞生源于对用户行为的观察和持续的技术迭代。公司致力于通过小团队、高责任感和快速迭代的方式,打造核心 AI 订阅服务和开放平台,推动 AI 技术的普及和应用。Sam Altman 强调了 AI 在编码、语音交互方面的巨大潜力,并预测 AI 将在未来几年内逐步实现智能体辅助工作、科学发现,并最终在物理世界(如机器人)创造巨大价值。他还指出,大型企业在适应 AI 变革方面通常行动迟缓,这为初创企业提供了发展机遇。 关键细节 OpenAI 的早期与演进: 公司始于 2016 年,最初仅有约 14 人,是一个研究实验室,对大规模语言模型 ( LLMs ) 的概念还很模糊,早期曾尝试让 AI 玩视频游戏。 第一个产品是 API ,而非 DALL-E 或 ChatGPT 。 GPT-3 API 于 2020 年 6 月左右发布,虽然未引起大众广泛关注,但在硅谷获得积极反响,主要商业应用是文案写作服务。 观察到用户喜欢在 Playground 与 GPT-3 对话,尽管当时模型对话能力不佳,这启发了 ChatGPT 的开发。 产品里程碑:...
本文记录了 Google 首席科学家 Jeff Dean 与红杉资本合伙人 Bill Korn(前 Google 工程负责人)之间关于人工智能(AI)发展、现状与未来的深度对话。Jeff Dean 分享了 Google 在 AI 领域,特别是大规模神经网络、硬件(如 TPU)、以及像 Gemini 这样的先进模型方面的见解。 主要内容 AI 的演进与规模化效应:AI 的发展经历了漫长的过程,大约从 2012 年开始,通过不断扩大神经网络的规模、增加数据量和提升计算能力(遵循“更大模型、更多数据、更好结果”的原则),取得了显著进展。 当前 AI 的能力与未来方向:目前的 AI 模型已具备解决复杂问题的能力,并且每年都在进步。多模态(处理文本、图像、音频、视频、代码等多种信息)和 AI 代理(Agents)是未来重要的发展方向,尽管后者目前部分仍处于早期阶段。 硬件与模型生态:专门为机器学习设计的硬件(如 Google 的 TPU)至关重要。未来顶尖的大型基础模型可能由少数几家投入巨资的公司主导,但通过蒸馏等技术可以创造出大量轻量级、专用模型。 AI 对科学及各行业的影响:AI 正在深刻影响科学研究,例如通过加速模拟过程(如天气预报、分子筛选)来促进科学发现。AI 也有潜力在不久的将来(可能一年内)达到初级工程师的工作水平。 未来模型的形态与计算范式:未来的 AI 模型可能会更加稀疏化、模块化(类似“专家混合”模型),并具备持续学习和动态调整的能力。计算范式也需重新思考,更加关注数据移动效率和低功耗高性能。 关键细节 AI 发展的起点: Jeff Dean 提到,AI 的显著发展始于大约 2012 年和 2013 年,当时开始能够使用大型神经网络解决视觉、语音和语言问题。 Google 在 2012 年训练了一个比当时其他模型大 60 倍的神经网络,使用了 16,000 个 CPU 核心。 AI 代理 (Agents): Jeff Dean 认为 AI 代理有巨大潜力,通过正确的训练过程,最终能在虚拟计算机环境中完成许多人类目前能做的事情。 物理机器人代理也接近于从无法在复杂环境中工作到能在未来一两年内完成约 20 项有用任务的转变,并随着经验积累和成本优化,能力将大幅提升。 大型语言模型 (LLMs) 格局: 构建最前沿的模型需要巨大投资,因此顶尖模型玩家可能只有“少数几家”。 Google 拥有如 Gemini 2....
本文是 Fiverr CEO Micha Kaufman 在4 月份发给员工的内部信。信中以极致坦诚的态度发出警示,指出人工智能(AI)将对各行各业的职位构成普遍威胁,并敦促员工必须迅速觉醒,通过学习和掌握 AI 工具、提升工作效率和主动性,成为领域内的卓越人才,以应对即将到来的职业变革并确保个人与公司的未来发展。 立场与动机: Micha 信奉“极致坦诚”,认为这是出于对同事的关怀,旨在帮助他们理解、成长并取得成功。 核心信息是一个“令人不悦的真相”:人工智能(AI)正在冲击所有人的工作,包括作者本人,这是一个“警钟”。 AI 影响的普遍性与深刻性: 影响范围广: 无论职业是程序员、设计师、产品经理、数据科学家、律师、客户支持代表、销售人员还是财务人员,AI 都将带来冲击。 工作性质变革: 曾经的“简单任务”将不复存在。 曾经的“困难任务”将成为新的简单任务。 曾经的“不可能完成的任务”将成为新的难题。 紧迫性: 如果不能在数月内成为所在领域的卓越人才或大师,将面临职业转变的需求。这关乎在行业内保住职业的能力,而非 Fiverr 上的零工。 后果: 不能迅速觉醒并理解新现实的人将“注定要完蛋”。 应对策略与行动方案: 学习、研究并掌握 AI 解决方案: 熟悉并精通所在领域的最新 AI 工具,找到能赋予“超能力”(单位时间内以更高交付质量产出更多成果)的方案。 示例: 程序员:代码工具如 Cursor。 客户支持:工单处理工具如 Intercom Fin, SentiSum。 律师:合同处理工具如 Lexis+ AI, Legora。 向团队内专家学习: 找到团队中最了解 AI 进展的人,向他们学习。 提升时间利用效率: 摒弃 2024 年的常规工作方式,必须做得更多、更快、更高效。 成为一名“提示工程师” (Prompt Engineer): Google 已过时,大型语言模型(LLM)和生成式人工智能(GenAI)是新基础,必须像专家一样使用它们。 推动组织效率提升: 主动参与利用 AI 工具和技术提高组织效率,在学会利用现有资源做得更多之前,不应盲目招聘。 理解并贡献公司战略: 深刻理解公司战略,主动提出想法帮助公司实现目标,不要等待被动邀请。 主动创造学习与成长机会: 不要等待外部提供机会,要自己创造。作者承诺帮助那些愿意自我提升的人。 呼吁与展望: 坦诚沟通: 如果员工不认同或认为作者在危言耸听,可以选择忽略信息。 共同应对: 作者希望那些认同其观点的人能加入讨论,共同规划公司和个人的未来。 未来展望: 公司本身“卓越”,拥有“光明的前途”,但这需要大家共同努力,过程将是艰难和高要求的,但最终值得。 后续行动: 已请 Shelly 在接下来几周内空出日程,以便与希望讨论未来的员工进行面谈。 核心信息: “这条信息值得深思”,需要“醒悟过来”。 原文 嘿,团队,...