👋 Welcome to fisherdaddy’s blog!
- 精心翻译的优质博客内容
- 前沿技术分享
- 认知分享
📚 博客内容:
- 翻译: 精选国外优质博客文章,涵盖编程、人工智能、产品、运营等多个领域。
- 分享: 探索各种前沿技术,从编程语言到软件开发,从云计算到人工智能。
- 认知: 结合自身经验和思考,分享对科技、生活、学习等方面的独到见解。
👋 Welcome to fisherdaddy’s blog!
📚 博客内容:
2025 年 11 月 25 日,Anthropic 正式发布了 Claude Opus 4.5 ,这是目前在编程、智能体(Agent)协作以及计算机操作领域最先进的模型。它在处理深度研究、幻灯片制作和电子表格等日常任务上也有显著提升,代表了 AI 系统能力的又一次飞跃。 关键细节 卓越的编程与推理能力 超越人类的测试成绩:在 Anthropic 内部用于招聘的高难度工程测试中,Claude Opus 4.5 在 2 小时的时间限制内,得分超过了以往所有的人类候选人。 基准测试提升:在 Terminal Bench 测试中,该模型比 Sonnet 4.5 提升了 15% ;在 Excel 自动化任务中,准确率提升了 20% ,效率提升了 15% 。 创造性解决问题:在 $\tau$-bench 测试中(模拟航空公司客服),模型展示了极高的灵活性,通过“先升舱再改签”的合规策略解决了看似无法处理的修改航班请求,体现了深度的推理能力。 成本效益与开发工具 定价与获取:开发者现在可以通过 API 使用 claude-opus-4-5-20251101 ,定价为每百万 token $5 / $25 ,这使得 Opus 级别的能力更加普及。 效率提升:在处理长程编程任务时,该模型可节省高达 65% 的 token 用量。工具调用错误和构建错误减少了 50% 到 75% 。 新的控制参数:API 新增了 “effort parameter” (努力程度参数),允许开发者在速度/成本与极致性能之间进行权衡。在最高设定下,其表现超出 Sonnet 4.5 4....
本文翻译自 Google 官方发布在 X 上的 nano banana pro 完整开发者教程。 与注重速度和性价比的 Flash 版本不同,Pro 版本引入了“思考”能力、搜索(Search Grounding)以及高保真 4K 输出等高级功能。该模型的三大核心优势在于: 具备思考能力:能够理解和推理复杂的提示词。 搜索溯源(Search Grounding):利用 Google Search 获取实时数据以生成准确的图像。 高质量输出:支持高达 4K 分辨率的图像生成。 关键细节 独特的高级功能 思考过程(The “Thinking” Process):不仅仅是绘画,模型会先进行推理。开发者可以通过设置 include_thoughts=True 来查看模型的“思考”过程,了解其如何解读提示词。 搜索溯源(Search Grounding):模型可以访问实时数据(如天气预报、特定人物信息),生成基于事实的图像。 4K 高分辨率生成:支持 1K、2K 和 4K 分辨率。 多语言能力:能够生成和翻译图像中的文本,支持超过十种语言。 高级图像混合:相比 Flash 版本仅支持 3 张图像,Pro 版本最多可处理 14 张图像的混合,适合制作复杂的拼贴画。 成本与计费信息 定价:生成 1K 或 2K 图像的成本为 $0.134,而 4K 图像的成本为 $0.24(外加 Token 费用)。 节省成本:使用 Batch API 可以节省 50% 的生成成本,但可能需要等待长达 24 小时。 必要设置:必须在 Google Cloud 项目中设置计费,并获取 API 密钥。 技术实现指南 SDK 支持:支持 Python (google-genai) 和 JavaScript SDK。 模型 ID:使用 Pro 模型时需指定 ID 为 gemini-3-pro-image-preview。 基本代码结构:教程提供了初始化客户端、设置 response_modalities(文本/图像)和 aspect_ratio(宽高比)的代码示例。 最佳实践与提示词技巧 为了获得最佳效果,建议遵循以下原则:...
为了应对 Google 发布的 Gemini 3 Pro,OpenAI 今早发布最强编码模型 GPT-5.1-Codex-Max,该模型建立在基础推理模型的更新之上,专为处理软件工程、数学和研究等领域的代理任务而设计。GPT-5.1-Codex-Max 的核心优势在于处理长期、精细工作的能力。它是首个通过“压缩”过程原生受训以跨越多个上下文窗口运行的模型,能够在单一任务中连贯处理数百万个 Token 。 关键细节 前沿编码能力 真实场景训练: 该模型针对真实的软件工程任务(如创建 PR 、代码审查、前端编码等)进行了训练,在多项前沿编码评估中表现优于前代模型。 环境适应性: GPT-5.1-Codex-Max 是首个受训在 Windows 环境中运行的模型,并针对 Codex CLI (命令行界面)的协作进行了优化。 速度与成本效率 Token 效率提升: 得益于更有效的推理能力,模型在“中等”推理强度下的表现优于 GPT-5.1-Codex ,同时减少了 30% 的思考 Token 使用量。 推理模式: 针对非延迟敏感任务,引入了新的“超高”( ‘xhigh’ )推理模式,通过更长时间的思考提供更好的答案。 成本降低: 效率的提升转化为实际成本的节约,例如在生成高质量前端设计时成本大幅降低。 长期任务处理 压缩技术: 模型能够自动压缩会话历史,在保留关键上下文的同时释放空间,从而突破上下文窗口的限制。 持续工作能力: GPT-5.1-Codex-Max 能独立工作数小时,内部评估显示其可持续执行任务超过 24 小时,适用于项目级重构和深度调试。 安全性与信任 安全沙箱: Codex 默认在受限沙箱中运行,限制文件写入和网络访问,以降低风险。 网络安全: 虽然该模型是目前部署的最强网络安全模型,但尚未达到“高”能力等级。官方建议将 Codex 视为额外的审查者,开发者仍需在部署前人工审查其工作。 可用性与成效 访问方式: 该模型现已面向 ChatGPT Plus 、Pro 、Enterprise 等用户开放,并将取代 GPT-5.1-Codex 成为 Codex 表面的默认模型。API 访问即将推出。 生产力提升: 内部数据显示,使用 Codex 的工程师发布的拉取请求(Pull Requests)数量增加了约 70% 。 原文: 使用 GPT-5....
本文由 Anthropic 应用 AI 团队撰写:Effective context engineering for AI agents。其中探讨了从提示工程 (prompt engineering) 到上下文工程 (context engineering) 的演变,并将其定位为构建高效、可控 AI 智能体的关键。文章指出,随着模型能力的增强,核心挑战已从编写完美的提示语转变为精心管理和优化输入给模型的整个信息集(即上下文)。 关键细节 上下文的基本构成与优化 系统提示 (System Prompts):应使用清晰、直接的语言。避免过于具体、僵化的逻辑,也要避免过于模糊、宽泛的指导。建议使用 XML 标签或 Markdown 标题来组织提示结构,使其清晰。 工具 (Tools):工具的设计应追求 token 效率和功能独立性,避免功能重叠导致智能体混淆。一个常见的失败模式是工具集过于臃肿。 示例 (Examples):提供少量(few-shot)但多样化、有代表性的示例,比罗列大量边缘案例效果更好。 动态上下文管理策略 即时上下文检索 (Just in time context):智能体并非预先加载所有数据,而是在运行时使用工具(如读取文件、查询数据库)动态地将所需信息载入上下文。这种方式模拟了人类按需检索信息的习惯,实现了信息的“渐进式披露” (progressive disclosure)。 混合策略 (Hybrid Strategy):在某些场景下,可以结合预先加载部分数据和智能体自主探索,以平衡速度和灵活性。 应对长时程任务的专门技术 对于超出单个上下文窗口容量的长期任务(如大型代码迁移、全面研究项目),可以采用以下技术: 压缩 (Compaction):当对话接近上下文窗口极限时,让模型对现有内容进行总结和压缩,然后带着这个摘要开启一个新的上下文窗口。最简单的压缩形式是清除历史记录中原始的工具调用结果。 结构化笔记 (Structured note-taking):让智能体将关键信息、待办事项或中间结论记录到上下文窗口之外的持久化存储中(如一个 NOTES.md 文件),并在需要时重新读入。这相当于为智能体提供了外部记忆。 子智能体架构 (Sub-agent architectures):将一个复杂任务分解,由一个主智能体进行高层协调,多个专职的子智能体处理具体的子任务。每个子智能体在自己的独立上下文中完成工作,然后将精炼后的结果返回给主智能体。 原文:AI 智能体的有效上下文工程 发布于 2025 年 9 月 29 日 上下文是 AI 智能体的一个关键但有限的资源。在这篇文章中,我们探讨了有效策划和管理为它们提供支持的上下文的策略。 在应用 AI 领域,提示工程 (prompt engineering) 几年来一直是关注的焦点,之后一个新术语开始崭露头角:上下文工程 (context engineering)。使用语言模型进行构建,正变得越来越不局限于为提示找到正确的词语和短语,而是更多地回答一个更广泛的问题:“什么样的上下文配置最有可能产生我们模型的期望行为?”...
本文由 Anthropic 工程师 Ken Aizawa 所写:Writing effective tools for agents — with agents。其中介绍了一系列为 AI 代理(agents)构建高效工具的最佳实践和核心原则。为非确定性的 AI 代理设计工具与为传统的确定性软件系统编写函数或 API 有着根本性的不同,需要采取一种以代理为中心、由评估驱动的迭代开发方法。 关键细节 1. 构建和优化工具的流程 文章提出了一个与 AI 代理协作、以评估为驱动的迭代流程: 构建原型: 快速搭建工具原型,并利用 Claude Code 等 AI 代理辅助编写。可以通过本地 MCP (Model Context Protocol) 服务器或桌面扩展进行测试。 运行综合评估: 生成任务: 与 AI 代理协作,生成大量源于真实世界、具有足够复杂度的评估任务。强任务可能需要多次、甚至数十次工具调用。 运行评估: 通过直接调用 LLM API,在简单的代理循环中运行评估。建议让代理输出推理过程(CoT)以更好地理解其行为。 分析结果: 代理是发现问题的合作伙伴。通过分析其推理过程、原始交互记录以及调用指标(如冗余调用、错误率),可以发现工具的不足之处。 与代理协作改进: 将评估结果和记录直接输入给 Claude Code,让它分析问题并重构优化工具代码和描述,从而形成一个持续改进的闭环。 2. 编写高效工具的核心原则 选择合适的工具: 质量优于数量。避免简单地将每个 API 端点都包装成一个工具。 应构建少数几个针对高影响力工作流程的、经过深思熟虑的工具。例如,用一个 schedule_event 工具整合查找空闲时间和创建会议等多个步骤。 命名空间(Namespacing): 当工具数量增多时,使用共同的前缀(如 asana_projects_search)对相关工具进行分组,可以帮助代理在不同工具间做出正确选择,避免混淆。 返回有意义的上下文: 工具返回的数据应优先考虑上下文相关性,而非技术细节。使用自然语言名称(name)代替晦涩的标识符(uuid)。 提供多种响应格式(如 concise 和 detailed),让代理可以根据需要选择信息的详细程度,从而控制上下文的消耗。 优化令牌(Token)效率:...
文本由 Anthropic 工程师由 Erik Schluntz 和 Barry Zhang 撰写:Building effective agents,文中探讨了构建高效 AI 代理(Agent)的最佳实践。 最成功的 AI 代理系统并非建立在复杂的框架之上,而是采用简单、可组合的模式。开发者应从最简单的方案(如优化单个 LLM 调用)开始,仅在确实需要时才引入更复杂的代理系统。诸如 LangGraph 等框架虽然可以简化初始开发,但也可能引入不必要的抽象层,使调试变得困难。建议开发者直接使用 LLM API,并确保理解所使用框架的底层逻辑。 代理系统的核心在于 LLM 与工具的交互。因此,投入精力设计一个清晰、易于使用的“代理-计算机接口” (ACI) 至关重要,这包括编写详尽的工具文档和进行充分的测试。文章提出了一系列从简单到复杂的构建模式,从基础的“增强型 LLM”到自主代理,开发者可以根据具体需求组合和定制这些模式。 关键细节 代理系统的类型 工作流 (Workflows):通过预定义的代码路径来编排 LLM 和工具,具有较高的可预测性。 代理 (Agents):LLM 能够动态地指导自己的流程和工具使用,更加灵活,适用于无法预知步骤的开放式问题。 核心构建模式 基础模块:增强型 LLM 这是所有代理系统的基础,即一个集成了检索、工具和记忆等增强功能的 LLM。 工作流:提示链 (Prompt Chaining) 将一个任务分解为一系列连续的步骤,每一步的 LLM 调用处理上一步的输出。适用于可清晰分解为固定子任务的场景。 工作流:路由 (Routing) 对输入进行分类,并将其引导至专门的下游任务或模型。例如,将简单的客户问题路由到成本更低的 Claude Haiku 4.5 模型。 工作流:并行化 (Parallelization) 让 LLM 同时处理一个任务的不同部分。具体可分为: 分片 (Sectioning):将任务分解为独立的子任务并行运行。 投票 (Voting):多次运行同一个任务以获得多样化的输出或更可靠的结果。 工作流:协调器-工作者 (Orchestrator-workers) 由一个中央 LLM(协调器)动态分解任务,并将其分配给多个 LLM(工作者)执行。适用于子任务无法预先确定的复杂场景,如编码。 工作流:评估器-优化器 (Evaluator-optimizer) 一个 LLM 负责生成响应,另一个 LLM 在循环中提供评估和反馈,以迭代方式改进输出质量。 自主代理 (Autonomous Agents) 适用场景:用于解决难以预测所需步骤的开放式问题。代理能够独立规划和执行,并通过与环境(如工具调用结果)的交互来评估进展。 注意事项:自主代理的成本更高,且存在错误累积的风险。因此,必须在沙盒环境中进行广泛测试,并设置适当的护栏(如最大迭代次数)。 实践应用领域 客户支持:代理可以通过集成工具来查询客户数据、处理退款等,将对话与实际操作相结合。 编码代理:代理可以根据需求描述自主修改多个代码文件,并通过自动化测试来验证解决方案的正确性,例如在 SWE-bench 基准测试中的应用。 原文:构建高效的智能体 发布于 2024年12月19日...
本文由 Claude Code 负责人 Boris Cherny 所写:Claude Code: Best practices for agentic coding。本文档概述了高效使用 Claude Code 这一命令行编程工具的最佳实践。Claude Code 作为一个灵活、低阶的编程助手,旨在通过提供接近原始模型的访问能力,帮助工程师将其深度集成到开发工作流中。以下是核心观点和关键实践的总结。 关键细节 1. 环境定制与配置 创建 CLAUDE.md 文件:在项目根目录、父/子目录或用户主目录 (~/.claude/CLAUDE.md) 中创建此文件,用于提供项目特定的上下文,如常用命令、代码规范、测试指令等。Claude 会自动加载这些信息。 优化 CLAUDE.md:像优化提示词一样迭代 CLAUDE.md 文件,保持其简洁有效。可以使用 # 键快速添加指令到该文件中。 管理工具权限:通过会话中选择 “Always allow”、使用 /permissions 命令或编辑配置文件,自定义工具的白名单,以在安全和效率之间取得平衡。 安装 gh CLI:若使用 GitHub,安装 gh 命令行工具能让 Claude 更高效地进行创建 issue、提交 PR 等操作。 2. 扩展 Claude 的工具集 利用 bash 工具:Claude 可以直接使用您环境中的 bash 工具和自定义脚本,只需告知其工具名称和用法。 使用 MCP (Model Context Protocol):通过连接到 MCP 服务器,Claude 可以使用更复杂的外部工具,如 Puppeteer 或 Sentry。 自定义斜杠命令:在 ....
本文来自于雪球创始人方三文近期对段永平的深度访谈,访谈中他分享了“买股票就是买公司”的核心理念,探讨 AI 对未来的影响,以及他对企业文化、家庭教育和普通人投资的朴素建议。 在雪球,他的ID是“大道无形我有形”,但更多人亲切地称他为“大道”或“阿段”。他就是段永平,小霸王和步步高的创始人,也是一位在中文互联网上极具影响力的传奇投资人。 最近,雪球创始人方三文与他进行了一场深度对话。与其说是正式采访,不如说是一次朋友间的“陪聊”,话题从他的日常生活、成长经历,聊到企业经营的智慧,再到投资场上的洞见。 这篇文章将带你走进这场对话,用最朴素的语言,梳理出那些散落在谈笑间的珍贵思考。 从乡下少年到商界传奇:自由、信任与“做对的事” 很多人好奇,是怎样的成长环境塑造了今天的段永平? 他的回答很实在:“我是在南昌出生,六七岁跟父母下放到江西农村,吃过苦。” 他坦言,很难说清成长环境与性格成就到底有多大关系,哥哥妹妹和他的性格也各不相同。但有一点他很确定:父母给了他充足的爱和安全感,但从不过多要求,更不会像现在的父母一样“卷”。 “我从小就很习惯自己做决策,”他说。这种源于父母充分信任的自由,让他养成了一种宝贵的习惯:当觉得环境不合适时,能果断离开。 大学毕业后,他觉得北京的工作和生活不舒服,便毅然“投奔市场”,南下广东。 在小霸王,他创造了辉煌的业绩,但当发现老板在股权激励上的承诺无法兑存,破坏了信任的根基时,他选择了离开。对他而言,这无关利益,而关乎契约精神。“你刮瓶盖刮出一个‘谢’字,肯定就不会再刮下去了。” 这种对“信任”和“对错”的较真,贯穿了他的整个职业生涯。 步步高的密码:企业文化,是“选”出来的 离开小霸王后,段永平创办了步步高。在这里,他从一开始就杜绝了“不守信”的问题。步步高的企业文化,也成了后来许多商业研究的范本。 那么,好的企业文化是如何形成的?他的答案可能会让一些管理学大师失望:“企业文化跟创始人有很大关系,它不是写在纸上、照本宣科的,而是 fundador 的个人品性吸引了一群认同这种文化的人。” 简单来说,文化主要是“选择”出来的,而不是“培养”出来的。当然,好的环境可以唤醒人善的一面,但改变一个人的本质非常困难。所以,与其费力改造,不如一开始就“找对的人”。 步步高文化的核心,听起来都很大白话: 本分:其源头是德鲁克的“做对的事情,并把事情做对”(Do the right thing, and do things right)。这意味着,在考虑“能不能赚钱”之前,先花五秒钟想一想“这是不是一件对的事情”。 用户导向:眼睛要盯着用户,而不是竞争对手或老板。 更健康,更长久:不健康、不长久的事情不做。 这个理念也演变成了一份宝贵的 “Stop Doing List”(不为清单)。比如,步步高很早就决定不做代工(OEM),不是因为代工不好,而是因为他们认识到这不符合自己的长处。“我知道做代工打不过郭台铭,但我们做品牌可以做得很好。”少做一些不适合自己的事,自然就少犯很多错误。三十年积累下来,这就是巨大的优势。 投资的唯一秘诀:“买股票就是买公司” 退休后,段永平移居美国,过上了打球、陪伴家人的生活。很自然地,他把目光投向了投资。一开始,他也看K线图,但总觉得那些结论在逻辑上不成立。直到他看到巴菲特的一句话: “买股票就是买公司。” “我就看到那一句话,突然就明白了,就够了。”段永平说。剩下的事情,就是如何看懂公司,这不是别人能教的。因为自己做过企业,所以他看懂别人的生意,相对容易一些。 巴菲特曾说,人生只需要一个有20个孔的打孔卡,每做一次重大投资就打一个孔。段永平数了数自己的“孔”: 网易 雅虎(实质是投阿里) 苹果 伯克希尔·哈撒韦 茅台 腾讯 拼多多(算半个,因为是早期风险投资) 西方石油(抄巴菲特的作业) GE(一次赚钱了但事后看是错误的投资) 算下来,离20个孔还差得远。他说:“我还有很久可以做投资。” 案例复盘:我是如何看懂几家公司的? “买股票就是买公司”,这句话理解起来容易,做到却很难。段永平分享了他对几家核心持仓公司的理解。 苹果:文化与用户导向的极致 段永平在2011年开始投资苹果。他看到的,远不止一个硬件公司。 强大的生态系统:他很早就看清了苹果软件和服务业务的巨大潜力。 优秀的企业文化:他认为苹果是“用户导向”的典范,极度在乎用户体验,绝不为了做生意而做产品。 他曾笃定苹果一定会出大屏手机,因为那是用户的真实需求。虽然苹果“扛了三年”,但最终还是回归了正道。 他也曾断言苹果一定不会造车,因为汽车这个产品,苹果无法提供足够的、差异化的价值。“他们做不出来,不是技术问题,是他们不知道自己到底能干什么。” 最终,苹果放弃了造车项目,印证了他的判断。 好的文化不能保证不犯错,但能确保在犯错后,有强大的力量把它纠正回来。 茅台:最好的创新就是“不变” 对于茅台,他的观点简单而犀利:“白酒分两种,茅台和其他。” 独特的口味和文化认同:茅台的核心价值在于其无可替代的口味,以及目标用户对这种口味的长期认同和习惯。这是一个文化符号。 “不变”的价值:对于茅台这样的公司,最怕的就是新来的领导“乱创新”,改变配方。他认为,茅台的国企身份在某种程度上反而是好事,森严的规矩让“乱改”的风险变小了,有助于维持品质的稳定性。 如何看待估值? 即使在2600元的高点,他也没有卖出。因为他问了自己一个关键问题:“卖了之后,钱投到哪里去?” 在当时,他找不到比持有茅台更好的选择。投资是比较,是机会成本的选择。对他来说,拿着茅台,即使股价下跌,也比换成一个自己不懂、且可能亏得更多的股票要好。 英伟达:在AI浪潮中“掺和一下” 起初,段永平对半导体行业保持距离,认为它变化快、资产重,很难看懂。但AI的浪潮改变了他的看法。 强大的护城河:他观察到,英伟达已经建立了一个极其强大的生态系统,所有想在AI领域有所作为的大公司都离不开它。它与AMD在行业内的地位差异,就体现了其垄断性优势。 有远见的领导者:他看了黄仁勋十几年前的视频,发现他讲的东西和今天一样,证明他早就预见到了未来并持续投入。这让他相信,黄仁勋现在讲的未来,大概率也会实现。 “你爱这个东西,我觉得至少才要掺和一下,不要未来十年跟自己完全没关系。” 他坦言,对英伟达的理解还没有到苹果的程度,所以投入的仓位有限,但这是一个值得拥有的“参与感”。...
2025 年 11 月 13 日 OpenAI 面向开发者发布 GPT-5.1 模型。GPT-5.1 是一款更快速、更高效、更智能的 AI 模型,专为开发者设计。它通过动态调整思考深度来优化简单任务的速度和成本,同时在复杂任务上保持强大的性能。该模型还增强了编码能力,并引入了两个新工具,旨在帮助开发者更可靠、更高效地构建复杂的代理工作流。 关键细节 效率与推理 动态推理:GPT-5.1 能根据任务复杂性动态调整其“思考”时间。对于简单任务,它使用更少的 token,响应速度更快(例如,一个 npm 命令的查询从 10 秒缩短到 2 秒);对于复杂任务,它会投入更多资源以确保可靠性。 无推理模式:新增了 reasoning_effort 设置为 'none' 的模式,适用于对延迟敏感的应用场景。该模式在保持高智能的同时,能实现更快的响应和更高效的并行工具调用。 性能提升:与 GPT-5 及其他竞品相比,GPT-5.1 在速度和 token 效率上均有显著提升。Balyasny Asset Management 发现其速度是 GPT-5 的 2-3 倍,而 token 消耗仅为竞品的一半。 扩展缓存:引入了长达 24 hour 的提示缓存(prompt caching)功能,显著降低了在多轮对话或编码会话等长交互场景中的延迟和成本。 编码能力 性能增强:GPT-5.1 在编码方面更具可控性,代码质量更高,并且减少了不必要的“过度思考”。在 SWE-bench Verified 基准测试中,其准确率达到了 76.3%。 业界好评:多家公司如 Cognition、Warp 和 JetBrains 对其给予了高度评价,认为它在理解用户意图、响应速度和自主性方面表现出色。 新增工具: apply_patch 工具:允许模型通过生成结构化的 diff 来可靠地创建、更新或删除代码文件,使多步骤代码编辑更加流畅。 shell 工具:允许模型通过受控的命令行界面与本地计算机交互,执行检查系统、运行程序等任务。 定价与可用性 可用性:GPT-5.1 和 gpt-5....
2025年 11 月 12 日,OpenAI 宣布了对 GPT-5 系列的重大升级,推出了 GPT-5.1。这次更新的核心目标是让 ChatGPT 不仅更智能,而且在对话交流上更令人愉悦。新版本引入了两个升级模型:GPT-5.1 Instant 和 GPT-5.1 Thinking,它们在智能、沟通风格和指令遵循方面都有显著提升。此外,本次更新还提供了更直观、更有效的工具,让用户可以轻松定制 ChatGPT 的语调和风格,使其更符合个人偏好。 核心内容 GPT-5.1 Instant: 作为最常用的模型,其默认风格变得更热情、更具对话感。 提升了指令遵循能力,能更可靠地回答用户提出的问题。 首次引入了“自适应推理” (adaptive reasoning) 功能,使其在处理数学(如 AIME 2025)和编程(如 Codeforces)等复杂问题时,能花更多时间思考,从而提供更准确的答案,同时对简单问题保持快速响应。 GPT-5.1 Thinking: 作为高级推理模型,它在效率和易用性上得到提升,能根据问题难度精确调整思考时间。 回答变得更清晰,减少了专业术语,使其更易于理解。 默认语调也变得更热情和富有同理心。 发布与过渡计划 推出时间: GPT-5.1 将从即日开始向付费用户(Pro, Plus, Go, Business)推出,随后覆盖免费用户。企业和教育版用户将获得为期七天的提前体验权限。 API 集成: GPT-5.1 Instant 和 GPT-5.1 Thinking 将在本周晚些时候登陆 API。 旧版模型: 原有的 GPT-5 模型将在付费用户的下拉菜单中保留三个月,以便用户比较和适应。 个性化定制功能 语调预设: 更新并优化了语调选项,保留了 Default、Friendly 和 Efficient,并新增了 Professional、Candid 和 Quirky 等选项。 精细化控制: 正在试验一项新功能,允许用户在个性化设置中直接微调 ChatGPT 的特征,如简洁度、热情度或表情符号使用频率。 即时生效: 个性化设置的更改将立即在所有对话(包括正在进行的对话)中生效,确保体验的一致性。 命名与未来 命名原因: 本次更新命名为 GPT-5....