👋 Welcome to fisherdaddy’s blog!
- 精心翻译的优质博客内容
- 前沿技术分享
- 认知分享
📚 博客内容:
- 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
- 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
- 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。
👋 Welcome to fisherdaddy’s blog!
📚 博客内容:
2025 年 10 月 30 号,OpenAI 推出了一款由 GPT-5 驱动的代理式安全研究工具 —— Aardvark。它旨在帮助开发者和安全团队大规模地发现并修复软件中的安全漏洞,从而在网络安全攻防战中为防御方提供优势。 Aardvark 是一款自主运行的 AI 代理,它能够像人类安全专家一样,通过分析代码、理解其行为并利用工具来主动发现和修复漏洞。它的核心目标是改变当前软件安全领域的格局,将天平向防御方倾斜。通过自动化漏洞的发现、验证和修复流程,Aardvark 能够帮助团队在不拖慢开发速度的前提下,持续提升代码的安全性。目前,该产品已进入私有测试阶段。 关键细节 工作原理与流程 Aardvark 的工作流程分为四个主要阶段,不依赖于模糊测试等传统技术,而是利用大语言模型的推理能力: 分析 (Analysis): 首先,Aardvark 会分析整个代码仓库,生成一个威胁模型,以理解项目的安全目标和设计。 提交扫描 (Commit scanning): 当有新的代码提交时,它会根据威胁模型检查代码变更,以发现潜在漏洞。它会用易于理解的方式逐步解释漏洞,并对代码进行注释。 验证 (Validation): 在发现潜在漏洞后,Aardvark 会在一个隔离的沙盒环境中尝试触发该漏洞,以确认其可利用性,从而确保提供给用户的洞察是准确且低误报的。 修补 (Patching): Aardvark 与 OpenAI Codex 集成,为发现的每个漏洞生成建议的修复补丁,供开发人员审查和一键应用。 实际影响与表现 内部应用与测试: Aardvark 已在 OpenAI 内部代码库和外部合作伙伴中运行数月,成功发现了多个重要漏洞。 基准测试: 在包含已知和人为引入漏洞的“黄金”代码库测试中,Aardvark 成功识别了 92% 的漏洞,展示了其高效性和实用性。 解决的问题: 软件漏洞已成为系统性风险,仅 2024 年就报告了超过 40,000 个 CVE。测试表明,约 1.2% 的代码提交会引入新的错误。 对开源社区的贡献 Aardvark 已被应用于开源项目,并成功发现了多个漏洞,其中 10 个已获得 CVE (通用漏洞披露) 编号。 OpenAI 承诺回馈开源社区,计划为部分非商业开源项目提供免费扫描服务。 公司还更新了其对外协调披露政策,采取了对开发者更友好的协作方式。 当前状态 Aardvark 目前已开放私有测试版,OpenAI 邀请感兴趣的组织或开源项目申请加入,以帮助团队进一步优化其性能和用户体验。...
本文来自于 OpenAI 重组后 OpenAI CEO 山姆·奥特曼和微软 CEO 萨提亚·纳德拉的播客。内容涵盖了双方的战略合作关系、OpenAI 的独特组织架构、对算力的巨大需求、AI 技术的未来发展方向以及其对经济和社会的深远影响。 关键细节 合作关系与财务条款 投资与股权:Microsoft 自 2019 年起向 OpenAI 投资约 134 亿美元,目前持有其约 27% 的股份。 独特的组织架构:OpenAI 采用了一种创新结构,顶层是一个非营利组织,其使命是确保 AGI (通用人工智能) 惠及全人类。该非营利组织已获得价值 1300 亿美元的 OpenAI 股票,成为全球最大的非营利组织之一。 商业协议: 模型独占性:OpenAI 的核心模型(Stateless APIs)在 2032 年前将独家在 Microsoft Azure 平台上提供。 收入分成:OpenAI 需要向 Microsoft 支付一定比例的收入分成,该协议同样持续到 2032 年或 AGI 被验证实现为止。 财务状况:Sam Altman 透露,OpenAI 的收入远超外界报道的 130 亿美元,并且正在以极快的速度增长。公司计划在未来四到五年内投入 1.4 万亿美元用于算力建设。 算力挑战与未来展望 当前瓶颈:增长的主要限制是算力不足。Satya Nadella 指出,目前的瓶颈已从芯片供应转向电力供应和数据中心建设速度。 未来供需:双方都认为算力市场未来某个时间点会出现供过于求的“算力过剩(compute glut)”情况,但对于这一情况出现的时间点(2-3 年或 5-6 年)看法不一。 成本与效率:AI 智能单位成本的快速下降,以及软件层面的优化(如推理堆栈的改进),将是推动 AI 普及的关键。 AI 的未来发展与社会影响 技术前沿:Sam Altman 预测,到 2026 年,AI 将能在编码(Codex)、科学发现(即使是微小的发现)、机器人技术和新型消费电子设备等领域取得重要进展。 监管问题:两位 CEO 都对美国各州制定不同 AI 法规的“碎片化(patchwork)”做法表示担忧,认为这会阻碍初创企业的发展,并呼吁建立统一的联邦层面监管框架。 对就业和生产力的影响:AI 将改变人们的工作方式,使员工能借助 AI 工具获得更高的生产力。公司虽然会增加员工数量,但人均产出的杠杆效应会远超以往。 美国再工业化:科技公司在数据中心和半导体领域的巨额投资(数万亿美元级别),被视为推动美国“再工业化”的重要力量,不仅能吸引外国资本,还能创造大量本地就业和供应链机会。 原文 一场重量级的对话,一边是微软的掌舵人萨提亚·纳德拉(Satya Nadella),另一边是OpenAI的创始人山姆·奥特曼(Sam Altman)。这场看似轻松的炉边谈话,却揭开了当今科技界最重要、也最被外界好奇的合作关系的神秘面纱。...
为了纠正大家都认为 ChatGPT Atlas 是 Chromium 的套壳,ChatGPT Atlas 工程团队编写本文来说明 ChatGPT Atlas 的底层有很多创新之处。虽然 Atlas 使用的是 Chromium,但它的构建方式与通常的 Chromium 不同。 Atlas 浏览器的核心创新在于其独特的 OWL 架构,该架构通过将 Chromium 引擎作为一个独立的服务层运行,从而与主应用程序进程分离。这种解耦设计不仅解决了传统浏览器架构在性能和用户体验上的瓶颈,还为实现复杂的 Agent (智能体) 功能和快速的产品迭代奠定了坚实的基础。它使得 Atlas 能够同时利用 Chromium 强大的网络兼容性与现代原生框架 (SwiftUI, AppKit) 带来的流畅体验。 关键细节 背景与挑战 产品目标: 团队希望创造一款能将 ChatGPT 作为网络“副驾驶”的浏览器,拥有即时启动、支持数百个标签页而不影响性能,以及丰富的动画和视觉效果。 技术选型: Chromium 因其先进的引擎、强大的安全模型和无与伦比的网络兼容性,成为自然的选择。 架构难题: 直接使用或修改 Chromium 的标准架构难以实现上述产品目标,特别是快速启动和高性能。同时,深度修改 Chromium 会导致后续版本更新和维护变得极其困难和耗时。 解决方案:OWL 架构 核心思想: OWL (OpenAI’s Web Layer) 是 OpenAI 的解决方案。它将 Chromium 的浏览器进程从 Atlas 主应用进程中剥离出来,使其成为一个独立的后台服务。 工作模式: Atlas 应用作为 OWL Client (客户端),而 Chromium 进程作为 OWL Host (主机)。两者通过 Chromium 自家的消息传递系统 Mojo 进行通信 (IPC)。 OWL 带来的优势 应用更简洁: Atlas 的用户界面几乎完全由 SwiftUI 和 AppKit 构建,代码库更清晰、技术栈更统一。 启动更快速: Chromium 在后台异步启动,用户界面几乎可以瞬间加载。 隔离性更强: Chromium 引擎的卡顿或崩溃不会影响 Atlas 主应用的稳定性。 维护更容易: 由于 Atlas 没有构建在 Chromium 的开源 UI 之上,与上游 Chromium 的代码差异更小,便于维护和升级。 迭代更迅速: 大多数工程师无需在本地编译 Chromium (耗时数小时),而是使用预编译的 OWL 二进制文件,使 Atlas 的构建时间从数小时缩短到几分钟。 针对 Agent 功能的特殊设计 渲染: 为了让 AI 模型能看到完整的页面上下文,Atlas 会将下拉菜单等在主窗口外渲染的 UI 元素重新组合到主页面图像中。 输入: Agent 生成的输入事件会直接发送到渲染器,而不是通过拥有更高权限的浏览器层,以保证沙箱安全边界。 数据隔离: Agent 浏览可以在临时的“登出”环境中运行。它使用 Chromium 的 StoragePartition 基础架构创建隔离的内存存储,确保每个 Agent 会话都是全新的,会话结束后所有数据都会被丢弃。 原文:我们如何构建OWL:我们基于ChatGPT的浏览器Atlas背后的新架构 作者:Ken Rockot,技术团队成员;Ben Goodger,ChatGPT Atlas工程主管...
本文是 OpenAI 完成重组后, Sam Altman 和 OpenAI 首席科学家 Jakub Pachocki、OpenAI 联合创始人 Wojciech Zaremba 谈论 OpenAI 的未来的直播,以下是 Sam Altman 对本次直播核心内容的总结: 我们设立了内部目标,即到2026年9月拥有一个在数十万个GPU上运行的自动化AI研究实习生,到2028年3月拥有一个真正的自动化AI研究员。我们可能完全无法实现这个目标,但鉴于其非凡的潜在影响,我们认为对此保持透明符合公众利益。 我们的安全策略依赖于5个层面:价值对齐、目标对齐、可靠性、对抗性鲁棒性和系统安全。思维链的忠实性是我们特别兴奋的一个工具,但它有些脆弱,需要划定一个边界和清晰的抽象。 在产品方面,我们正努力转向一个真正的平台,让基于我们产品构建的个人和公司将捕获大部分价值。今天,人们可以在ChatGPT中使用我们的API和应用程序进行构建;最终,我们希望提供一个能够赋能大型企业的人工智能云。 我们目前已承诺投入约30吉瓦的算力,多年来的总拥有成本约为1.4万亿美元。鉴于我们所看到的模型能力增长和收入增长的前景,我们对此感到坦然。我们希望做得更多——我们希望建立一个AI工厂,能以远低于今天的成本每周制造1吉瓦的新容量——但这将需要对未来的模型、收入以及技术/金融创新有更多信心。 我们的新结构比旧结构简单得多。我们有一个名为OpenAI基金会的非营利组织,它管理着一个名为OpenAI集团的公益公司(PBC)。该基金会最初拥有PBC 26%的股份,但如果PBC表现超级出色,它可以通过认股权证随时间增加持股。PBC可以吸引实现使命所需的资源。 我们的非营利组织和PBC的使命保持不变:确保通用人工智能造福全人类。 该非营利组织最初承诺投入250亿美元用于健康和治愈疾病,以及AI韧性(所有能帮助社会成功过渡到后AGI世界的事物,包括技术安全,也包括经济影响、网络安全等等)。与以前不同,该非营利组织现在有能力相对迅速地实际部署资本。 我们预计到2026年,我们的AI系统或许能够做出一些小型的新发现;到2028年,我们可能看到重大的发现。这是一件非常重要的事情;我们认为科学,以及那些让我们能广泛分享科学成果的机构,是生活质量随时间推移而改善的最重要途径。 原文: “Hello,我是Sam。” 伴随着这句简单的开场白,OpenAI的CEO Sam Altman和他的首席科学家Jakub Pachocki,以前所未有的透明度,向世界揭示了他们关于人工智能未来的宏伟蓝图。这不仅仅是一次常规的更新,更像是一场关于技术、社会和人类未来的坦诚对话。他们分享了内部的研究目标、庞大的基础设施计划,以及一个旨在“确保通用人工智能(AGI)惠及全人类”的全新公司架构。 让我们一起深入这场信息量爆炸的分享会,看看OpenAI到底在谋划些什么。 重新定义AGI:从“神谕”到赋能人类的“工具” 在OpenAI的早期,团队曾想象AGI会像一个高悬于天空的“神谕”,自动为人类创造各种奇迹。但随着研究的深入,他们的看法变得更加清晰和务实。 “我们想创造工具,然后让人们用这些工具去创造未来。” Sam Altman解释道。 这个观点的转变至关重要。未来的AGI不再是一个包办一切的“神”,而是一个强大的赋能者。OpenAI的愿景是为每个人打造一个“个人AGI”(Personal AGI),这个智能体可以随时随地调用各种工具和服务,帮助人们处理工作与个人生活中的大小事务。 想象一下,当AI甚至能够帮助我们发现新的科学知识时,普通人能用它创造出什么?这正是OpenAI所期待的,一个由无数个体用AI工具共同构建的、更加美好的未来。 直面超级智能:一个大胆到令人咋舌的时间表 接下来,首席科学家Jakub Pachocki接过了话筒,分享了更令人震撼的研究进展。他坦言,AGI这个词甚至可能低估了深度学习所带来的变革。 “我们相信,深度学习系统离**超级智能(Superintelligence)**可能不到十年。” 超级智能,即在许多关键领域都比全人类更聪明的系统。这是一个严肃的命题,而OpenAI的整个研究计划,正是围绕着利用这种力量来加速科学发现和技术发展而展开的。 Jakub用一个非常直观的指标来衡量模型的进步:人类完成同样任务所需的时间。 当前模型(如GPT-5):已经能处理需要人类顶尖专家花费约5个小时才能完成的任务,比如在国际信息学奥林匹克竞赛中取得优异成绩。 未来的可能性:模型的“思考时间”(即测试时计算量,Test-Time Compute)还有巨大的提升空间。如果为了攻克科学难题,我们可以让模型动用整个数据中心的算力去“思考”,那会发生什么? 基于这种预期,Open-AI罕见地公开了他们的内部研究时间表(并强调这只是目标,可能会有偏差): 到2026年9月:开发出“AI研究实习生”(AI Research Interns),能够通过大量计算,显著加速研究人员的工作。 到2028年3月:实现一个“全自动AI研究员”(Fully Automated AI Researcher),能够独立完成大型研究项目。 这听起来像是科幻电影,但它正是OpenAI正在全力冲刺的方向。 安全的基石:五层防御与“思想链忠诚度” 拥有如此强大的力量,安全自然是重中之重。Jakub详细介绍了OpenAI的五层安全框架,从模型内部到外部系统,层层递进: 价值对齐 (Value Alignment):最核心也最困难的一环。它要确保AI从根本上“关心”人类的福祉,当面对模糊或冲突的指令时,能遵循高层原则。简单说,就是“AI爱人类吗?” 目标对齐 (Goal Alignment):确保AI能正确理解并遵循人类的指令。 可靠性 (Reliability):AI能正确评估自己的能力,在简单任务上保持可靠,在困难任务上表达不确定性。 对抗性鲁棒性 (Adversarial Robustness):系统能抵御来自人类或AI的恶意攻击。 系统性安全 (Systemic Safety):不依赖于AI自身智能或对齐性的外部保障,例如数据访问权限、物理设备控制等。 在这些层面中,Jakub特别深入地讲解了一个前沿且充满希望的技术方向:思想链忠诚度 (Chain-of-Thought Faithfulness)。...
OpenAI 于 2025 年 10 月 21 日推出了一款以 ChatGPT 为核心的全新网络浏览器——ChatGPT Atlas。这款浏览器旨在通过深度集成 AI,重塑用户的网页浏览体验,使其成为一个能够理解用户意图并主动完成任务的“超级助理”。 ChatGPT Atlas 的核心思想是将 ChatGPT 的强大功能与浏览器深度融合,让 AI 能够理解用户正在浏览的内容和上下文,从而在不离开当前页面的情况下,提供即时帮助、自动化执行任务。这标志着网页浏览从被动获取信息,向与 AI 协同完成工作的主动模式转变。其最终目标是让用户能够将繁琐的日常任务委托给 AI,从而专注于更重要的事情。 关键细节 核心功能与特性 深度集成: ChatGPT 内置于浏览器中,可随时调用,理解当前页面内容,无需复制粘贴。 浏览器记忆 (Browser memories): Atlas 可以选择性地记住用户浏览过网站的上下文信息,并在后续的对话和任务中利用这些信息,例如,可以要求它“总结我上周看过的所有招聘信息,并分析行业趋势”。 代理模式 (Agent mode): 在此模式下,ChatGPT 可以在浏览器中为用户执行具体操作。例如,根据一个在线食谱,自动寻找商店、将所有配料加入购物车并下单。该功能目前为 Plus、Pro 和 Business 用户提供预览。 用户控制与隐私安全 用户自主控制: “浏览器记忆”功能完全可选,用户可以随时在设置中查看、归档或删除这些记忆。用户也可以随时控制 ChatGPT 对特定网站的访问权限。 数据训练: 默认情况下,用户的浏览内容不会被用于训练 OpenAI 的模型。用户可以选择在数据控制设置中开启“包括网页浏览”来授权训练。 代理模式安全措施: 代理无法在浏览器中运行代码、下载文件或安装扩展程序。 在访问金融机构等敏感网站时,代理会暂停以确保用户知情。 尽管有安全措施,官方仍提示代理模式存在被恶意指令利用的风险,并建议用户保持警惕。 发布与平台支持 首发平台: ChatGPT Atlas 今日起在全球范围内向 macOS 用户推出,覆盖 Free、Plus、Pro 和 Go 等多个版本。 后续支持: Windows、iOS 和 Android 平台的版本也即将推出。 企业版本: Business、Enterprise 和 Edu 用户可在管理员授权后使用 Beta 版本。 原文:介绍 ChatGPT Atlas 今天我们推出 ChatGPT Atlas,一款以 ChatGPT 为核心构建的新型网页浏览器。...
2025年 10 月 20 号 DeepSeek 团队在 HuggingFace 开源 DeepSeek-OCR ,该模型主要用于探索一种名为“上下文光学压缩” (contexts optical compression) 的创新理念。该方法旨在解决大型语言模型 (LLM) 在处理长文本时面临的计算效率难题,通过将文本信息渲染成图像,利用视觉 Token 实现比原始文本 Token 更高效的压缩。 主要观点 核心问题: 当前的大型语言模型 (LLM) 在处理长文本时,其计算复杂度会随文本长度呈二次方增长,导致效率低下。 创新方案: 提出“上下文光学压缩”概念,即将文本内容转换为图像,利用视觉语言模型 (VLM) 进行处理。由于一张图像可以用远少于原始文本的视觉 Token 来表示,这种方法有望实现极高的信息压缩率。 关键成果: 研发了 DeepSeek-OCR 模型作为此概念的验证。实验证明,该模型能在 9-10x 的压缩率下达到 96% 以上的文本解码精度。此外,DeepSeek-OCR 在主流的文档解析基准测试中,以最少的视觉 Token 消耗实现了端到端模型中的最佳性能 (state-of-the-art)。 关键细节 模型架构与创新 DeepSeek-OCR 组成: 模型由两部分构成:一个新颖的视觉编码器 DeepEncoder 和一个 DeepSeek-3B-MoE 解码器。 DeepEncoder 架构: 这是模型的核心创新。它串联了以窗口注意力为主的 SAM 模型和以全局注意力为主的 CLIP 模型,并通过一个 16x 的卷积压缩器连接两者。这种设计使得模型在处理高分辨率图像时,能有效控制计算内存和视觉 Token 的数量。 多分辨率支持: DeepEncoder 支持多种分辨率模式(如 Tiny, Small, Base, Large, Gundam),使其能够灵活测试不同压缩比下的性能,并适应不同复杂度的文档。 性能评估 视觉-文本压缩率研究: 在 Fox 基准测试中,DeepSeek-OCR 表现出色: 在 9-10x 的压缩比下,解码精度超过 96%。 在 10-12x 的压缩比下,精度约为 90%。 即使在接近 20x 的高压缩比下,精度仍能保持在 60% 左右。 OCR 实践性能: 在 OmniDocBench 基准测试中,DeepSeek-OCR 的表现优于其他端到端模型: 仅用 100 个视觉 Token,性能就超过了使用 256 个 Token 的 GOT-OCR2....
本文来自于 Andrej Karpathy 的在 Dwarkesh Patel 上的播客访谈。在这次访谈中,Andrej 解释了为什么强化学习很糟糕 (但其他一切都更糟糕),为什么 AGI 会融入过去约 2.5 个世纪的 2% GDP 增长中,为什么自动驾驶花了这么长时间才取得突破,以及他认为的未来教育是什么。 Andrej Karpathy 认为,我们正处于“智能体十年”(decade of agents)而非“智能体之年”(year of agents),因为当前的大语言模型(LLM)虽然取得了显著进展,但在实现真正可靠的智能体方面仍存在诸多认知缺陷,解决这些问题需要长期的努力。他将 AI 的发展视为计算和自动化趋势的延续,而非一个会颠覆经济增长率的突变事件,并强调了其中的历史曲折,例如早期对游戏环境强化学习的过度投入是一个“失误”。 他认为,当前 AI 的核心挑战在于从海量、低质量的互联网数据中分离出真正的“认知核心”(cognitive core),即解决问题的算法和能力,而不是过度依赖记忆。他批评当前的强化学习(RL)方法效率低下,如同“通过吸管吸取监督信号”(sucking supervision through a straw),并且模型在利用自身生成的数据进行训练时,容易陷入“模型坍塌”(model collapse)的困境,丧失多样性。 对于未来,他预测 AI 不会带来经济增长率的急剧爆炸,而是会延续现有的指数增长趋势。他最大的担忧是人类会逐渐失去对 AI 系统的理解和控制。因此,他目前致力于通过教育项目 Eureka 来赋能人类,旨在通过构建高效的“知识坡道”(ramps to knowledge),让前沿技术变得更容易理解和掌握,从而确保人类在 AI 时代保持核心地位。 关键细节 智能体的瓶颈:当前的智能体在持续学习(continual learning)、多模态(multimodality)能力和计算机操作等方面存在严重不足,使其无法像人类实习生一样可靠地完成工作。 AI 发展的三次浪潮: 任务导向的神经网络:以 AlexNet 为代表,专注于图像分类等特定任务。 早期的智能体探索:以 Atari 游戏和 OpenAI Universe 项目为代表,Karpathy 认为这是一个“失误”,因为它们脱离了真实世界的知识工作。 大语言模型(LLM):专注于通过大规模预训练构建强大的知识表示,这是当前智能体发展的基础。 预训练与进化:Karpathy 将 LLM 的预训练比作“蹩脚的进化”(crappy evolution),认为它是一种在当前技术条件下,为模型注入初始知识和智能的实用方法,类似于生物进化为动物大脑内置了大量硬件和本能。 强化学习(RL)的局限性: 监督信号稀疏:RL 仅根据最终结果(奖励)来调整整个行为序列,这种方法噪声大且效率低下。 LLM 裁判的脆弱性:使用 LLM 作为奖励模型进行过程监督时,模型很容易找到对抗性样本(如无意义的 dhdhdhdh 字符串)来欺骗裁判,从而获得高分。 认知核心 vs....
Anthropic 最近虽然口碑差,但人才密度还是高,继 MCP 之后他们又新推出来 Agent Skills,这个思路非常好,既给了 Agent 确定性,也给了其几乎无限的上下文,顺便帮你省了钱。也算是和 MCP 互补,一个连接外部系统,一个连接本地脚本和文档。 Agent Skills 的核心思想也很简单,就是通过提供一个由Skill、脚本和资源组成的结构化文件夹,将领域专家的知识打包在这些文件夹中,让 Agent 能够动态加载这些“Skills”。 Skill 的构成与工作原理大概是下面这样: 一个 Agent Skill 本质上就是一个包含 SKILL.md 文件的目录,该文件有一定的规范,比如必须以包含元数据(如name和description)的 YAML 前置内容开头等等。 Agent Skills 通过分层加载信息来高效管理上下文窗口: 第一层: Agent 在启动时仅加载所有已安装 Skill 的name 和 description,以便知道何时使用某个 Skill。 第二层: 当 Agent 认为某个 Skill 与当前任务相关时,它会读取该技能的 SKILL.md 文件的完整内容。 第三层及以上: 对于更复杂的任务,技能可以包含额外的辅助文件(如 reference.md 或脚本)。Agent 只在需要时才会读取这些文件,这个意思基本就是 Skills 可以包含几乎无限的上下文信息。 Skill 中可以包含预先编写好的固定的代码(如 Python 脚本)。Agent 可以像使用工具一样执行这些代码,以处理传统代码更擅长的确定性或高效率的任务,而不需要把代码本身加载到上下文中。 这个的好处很明显,把AI 生成的质量不稳定的代码变成稳定可控的代码,既大大缩小上下文,也节省了很多成本。 这篇文章中也举了两个 Skills 的典型应用例子: 通过AI 生成的代码来对列表进行排序,远比简单地运行一个排序算法要昂贵得多。除了效率问题,许多应用还需要只有代码才能提供的确定性可靠性。 PDF Skills 包含一个预先编写的 Python 脚本,用于读取 PDF 并提取所有表单字段。Claude 可以在不将脚本或 PDF 加载到上下文的情况下运行此脚本。而且由于代码是确定性的,这个工作流程是一致且可重复的。...
Google 在 2025 年 10 月 15 日发布了其最新视频生成模型 Veo 3.1。我们来快速了解一下其更新内容。此次更新的核心在于提升了模型的视频生成质量和创作灵活性。主要改进包括更丰富的原生音频、对电影风格更好的理解以及更强的图像到视频转换能力。同时,还推出了三项全新的创意功能:允许用户通过参考图像指导视频生成、扩展现有视频以创作更长的内容,以及控制视频的首尾帧来生成平滑的过渡场景。 模型的核心改进 音频质量提升: Veo 3.1 能够生成更丰富的原生音频,包括自然对话和与画面同步的音效。 叙事控制增强: 模型对电影风格的理解得到改善,让创作者能够更好地控制视频的叙事节奏和视觉风格。 图像转视频优化: 提升了根据提示词生成视频的准确性,保证了更好的音视觉质量,并能在多个场景中保持角色的一致性。 三大全新创意功能 ‘Ingredients to video’ (参考图像生成): 用户可以提供最多 3 张参考图像(如角色、物体或场景),来指导视频的生成过程。这有助于在多个镜头中保持角色的一致性或应用特定的艺术风格。 ‘Scene extension’ (场景扩展): 该功能允许用户扩展已生成的视频,通过在前一个视频的最后一秒基础上生成新片段,从而创作出长达一分钟或更长的视频,并保持视觉上的连续性。 ‘First and last frame’ (首尾帧控制): 用户可以提供一个起始图像和一个结束图像,Veo 3.1 能够在这两个图像之间生成一个平滑、自然的过渡视频,并配有相应的音频。 应用案例与可用性 实际应用: Promise Studios 正使用 Veo 3.1 增强其生成式故事板和预可视化流程;Latitude 则在其实验性的生成式叙事引擎中集成了该模型。 获取方式: Veo 3.1 及其新功能现已通过 Gemini API 在 Google AI Studio 和 Vertex AI 中提供付费预览。开发者可以通过官方文档、新的演示应用 Veo Studio 或代码示例快速上手。 定价: Veo 3.1 的定价与 Veo 3 保持一致。
本文翻译自 HeyGen 创始人 Joshua Xu 在2025 年 10 月 17 日 发布的一篇 HyeGen 团队的工作法则。他发这篇文章正直 HeyGen ARR 达到 1 亿美元之际,距离 2023 年 4 月首次达到 100 万美元仅过去 29 个月。HeyGen 团队在 AI 时代的工作法则,核心总结下来有以下几点: 拥抱不稳定性。主动适应 AI 技术每隔几个月就发生一次的突破性进展 速度即品质。快速行动是为了更快的学习,通过比对手快 5 倍的实验,实现长期的卓越品质和用户价值。 学习速度决定成败。在 AI 时代,学习最快的团队才能获胜。 专注解决真实问题。 想要了解进一步的细节请继续阅读以下我对其原文的中文翻译。 我们如何驾驭浪潮,快速发布,并在不稳定的世界中取胜 我们在构建什么 前言 第一部分:核心理念 第二部分:我们的节奏 第三部分:运营原则 第四部分:团队结构与通用原则 第五部分:核心产品团队 第六部分:增长产品团队 第七部分:沟通协议 第八部分:需要避免的反模式 第九部分:在战争时期取胜 结论 我们的使命:让视觉叙事普及大众。 我们将视频分为两类: 沟通类视频 — 业务更新、教程、访谈、播客、解说视频。这些视频旨在解释、告知或沟通。(最适合基于脚本的编辑。) 电影级视频 — 高制作水平的广告、电影、音乐视频、预告片、高端品牌内容。这些视频旨在感动、启发或娱乐。(最适合时间线编辑。) 我们的重点是让沟通类视频对每个人都触手可及。当我们说每个人时,我们指的是从新手到专业人士的各种技能水平。我们的产品足够简单,任何人都能在几分钟内制作出高质量的视频。 传统的软件开发已经死亡。曾经稳固的基础现在在我们脚下动摇。在AI时代,每隔几个月就有突破性进展,昨天的极限变成了明天的默认配置。 在HeyGen,我们不与这种不稳定性抗争。我们驾驭浪潮。我们整个开发理念都围绕着驾驭AI的进步,而不是去寻找已不复存在的稳定技术基础。 这本书记录了我们如何思考、构建和取胜。它写给每一位HeyGen团队成员——工程师、设计师、产品经理——以及那些想加入我们的人。这就是当基础在我们脚下不断变化时我们如何工作,以及我们如何将这种不稳定性转化为我们的竞争优势。 “快速行动,做到最好。驾驭AI浪潮,拥抱研究的不确定性,提前六个月下注,并构建能够随着模型改进而自我升级的灵活产品,同时不牺牲质量。” 在AI时代,我们在没有稳定技术基础的情况下运作。每隔几个月,AI技术就会发生巨大变化。模型的能力是未知的,并且在迅速变化。 我们正处在一个百年一遇的技术窗口期。在接下来的12个月里,AI代表了我们这一代人的战时机遇。我们有机会打造下一个谷歌或Facebook。机会正在此刻爆发。我们应该将强度调至最高水平。这是每个人加入HeyGen的原因,也是我们在这里的原因。 关键区别: 当我们说“拥抱不稳定性”时,我们指的是底层的AI技术基础——模型、能力、研究突破。我们绝不接受我们的服务正常运行时间、产品质量或用户体验的不稳定性。即使我们脚下的AI技术基础不断变化,我们的产品也必须保持坚如磐石的可靠性。...