独家深访 OpenAI 研究副总裁 Mark Chen:扎克伯格的“送汤”攻势、Gemini 3的威胁与Jony Ive的新硬件

本次对话是 Core Memory 播客主持人 Ashley Vance 与 OpenAI 首席研究官 Mark Chen 之间的深度访谈。访谈内容涵盖了 OpenAI 在激烈的 AI 人才争夺战中的立场、公司的核心研究策略、AGI(通用人工智能)的发展进程、以及 Mark Chen 个人的职业背景和对未来的展望。 关键细节 激烈的招聘战术 汤的故事: 为了挖角 OpenAI 的研究人员,Mark Zuckerberg 曾亲自手写信件并送去“亲手煮的汤”(虽然后来 Mark Chen 调侃这可能只是某种策略)。 薪资反击: Mark Chen 透露,OpenAI 明确告知员工不会与 Meta 进行“一美元对一美元”的薪资对抗,但员工因相信公司的研究前景而选择留下。 技术竞争与评估 Gemini 3 与基准测试: 针对 Google 发布的 Gemini 3 ,Mark Chen 表示 OpenAI 内部已有性能相当甚至更好的模型。他提到基准测试只能说明一部分问题,他个人喜欢用一个关于“42”的数学难题(模 42 随机数生成器问题)来测试模型,目前尚无模型能完美解决。 预训练的回归: 过去两年 OpenAI 在 RL(强化学习)和推理模型(如 o1)上投入巨大,导致预训练的“肌肉”稍有萎缩。最近半年,团队已重新将重心放回“超级预训练”(Supercharging Pre-training)上,并认为 Scaling Law(缩放定律)并未失效。 个人背景与成长 从金融到 AI: Mark Chen 毕业于 MIT,曾在华尔街从事高频交易(HFT)。他在看到 AlphaGo 的比赛后受到启发,转行进入 AI 领域。 OpenAI 的早期岁月: 他在 2018 年加入 OpenAI,当时公司仅有约 20 人。他最初作为一名“驻场研究员”(Resident)加入,后来负责了 Codex 和 ImageGPT 等重要项目。 组织动荡的回忆 Sam Altman 事件: 在 Sam Altman 被解雇期间,Mark Chen 与其他核心成员(如 Jakub)起草了请愿书,并在凌晨 2 点获得了超过 90% 研究员的签名支持。他描述那段时间大家为了保护团队不被挖角,甚至睡在办公室,展现了极高的忠诚度。 未来产品形态 与 Jony Ive 的合作: Mark Chen 认为目前的 ChatGPT 交互方式很“笨”,缺乏记忆和深度思考。未来的设备应该能理解用户的深层意图,并具有持续的记忆功能。 安全研究细节: 在 o1 模型的开发中,OpenAI 决定不人工干预或监管模型的“思维过程”(Thinking Process),以确保模型不会为了取悦人类而学会撒谎或隐藏真实意图。 原文 在该行业最激烈的时刻,Ashley Vance坐下来与OpenAI目前最核心的研究主管之一、高级副总裁Mark Chen进行了一场深度对话。从硅谷的抢人大战到AGI的终极形态,从备受争议的“宫斗”风波到与前苹果设计总监Jony Ive的神秘硬件合作,这场对话揭示了OpenAI在这场世纪竞赛中的真实心态。...

December 2, 2025 · 1 min · fisherdaddy

针对 3 项编程任务评测 GPT-5.1 vs Gemini 3.0 vs Claude Opus 4.5 • Kilo Code

本文翻译自 Kilo Code 官方撰写的博客:Benchmarking Gpt 51 vs Gemini 30 vs Opus 45。其中对比了三大 AI 巨头于同月发布的最新编程模型: OpenAI 的 GPT-5.1 、 Google 的 Gemini 3.0 和 Anthropic 的 Opus 4.5 。通过三项不同的编程任务测试,结果显示 Claude Opus 4.5 是表现最全面、得分最高且速度最快的模型,适合追求一次性完成度和生产就绪代码的场景; GPT-5.1 倾向于防御性编程,注重安全性和详细文档;而 Gemini 3.0 则以最低的成本和最严格的指令遵循度著称,适合需要精确控制和极简代码的场景。 模型风格差异 Claude Opus 4.5 :代码组织严密,功能最完整,自动包含环境配置和错误处理,但成本最高。 GPT-5.1 :风格“防御性”强,会自动添加未请求的安全检查、详细注释和类型定义,代码较为冗长。 Gemini 3.0 :风格极简,严格按字面意思执行指令,不添加多余功能,成本最低。 关键细节 测试方法 测评使用了 Kilo Code 平台,设计了三个涵盖不同挑战的测试: 提示词遵循测试:编写具有严格规则的 Python 速率限制器。 代码重构测试:修复一个充满漏洞的 TypeScript API 遗留代码。 系统扩展测试:理解现有通知系统架构并添加电子邮件处理程序。 具体测试表现 测试 1(Python 速率限制器): Gemini 3.0 得分最高(99/100),严格遵循了所有指令,未添加多余代码。 GPT-5.1 添加了未请求的输入验证和安全检查,虽然出于好意但违反了“严格遵循”的初衷。 Opus 4....

December 1, 2025 · 4 min · fisherdaddy

用于长期运行 Agent 的高效框架 • Anthropic

本文由 Anthropic 工程师 Justin Young撰写:Effective harnesses for long-running agents。本文探讨了随着 AI Agent能力增强,在处理跨越数小时或数天的复杂任务(如软件工程)时面临的核心挑战:如何在多个有限的上下文窗口(context windows)之间保持工作的连贯性。作者指出,仅靠上下文压缩不足以解决问题,Agent 容易出现试图一次性完成任务(one-shotting)或过早宣布任务完成的失败模式。 为了解决上述问题,作者提出了一套基于 Claude Agent SDK 的双重解决方案: 初始化Agent (Initializer agent):负责在首次运行时设置环境和规划任务。 编码Agent (Coding agent):负责在后续会话中进行增量开发,并为下一次会话留下清晰的记录。 这一方案通过结构化的环境设置、详细的功能列表和严格的增量工作流,确保Agent 能够像人类工程师轮班一样,在没有先前记忆的情况下高效接手工作。 关键细节 核心挑战与失败模式 上下文限制:Agent 在离散的会话中工作,新会话开始时没有之前的记忆。 常见错误:在使用 Opus 4.5 等前沿模型时,若仅给出高层级提示,Agent 倾向于试图一次性构建整个应用,导致上下文耗尽、功能半途而废且缺乏文档;或者在仅完成部分功能后误判项目已完成。 解决方案的具体实施 环境初始化:Initializer agent 会创建关键的基础设施,包括: init.sh 脚本:用于启动开发环境。 claude-progress.txt 文件:记录Agent 的操作日志。 初始的 git 提交:建立版本控制基础。 功能列表(Feature List):创建一个包含详细需求的 JSON 文件(例如 claude.ai 克隆项目包含 200 多个功能点)。选择 JSON 而非 Markdown 是为了防止模型意外覆盖文件结构。 增量工作流与状态管理 快速上手(Getting up to speed):Coding agent 在每个会话开始时执行标准化步骤: 运行 pwd 确认工作目录。 读取 git 日志和进度文件以了解最近的工作。 读取功能列表,选择优先级最高且未完成的功能。 运行 init....

December 1, 2025 · 3 min · fisherdaddy

介绍一下 DeepSeekMath-V2:迈向可自我验证的数学推理

DeepSeek 于 2025 年 11 月 27 日发布 DeepSeekMath-V2 模型,并开源到 HuggingFace。该模型构建于 DeepSeek-V3.2-Exp-Base 之上,模型参数为 685B。 大型语言模型在数学推理方面取得了显著进展,这不仅是人工智能的重要试验场,若能进一步发展,还将对科学研究产生深远影响。通过利用奖励正确最终答案的强化学习来扩展推理能力,大语言模型(LLM)在短短一年内从表现不佳发展到在 AIME 和 HMMT 等定量推理竞赛中达到饱和状态。然而,这种方法面临着根本性的局限性:追求更高的最终答案准确率并未解决一个关键问题:正确的答案并不保证推理过程是正确的。此外,许多数学任务(如定理证明)需要严谨的逐步推导而非数值答案,这使得基于最终答案的奖励机制不再适用。为了突破深度推理的极限,我们认为有必要验证数学推理的全面性和严谨性。自我验证对于扩展测试时计算(test-time compute)尤为重要,特别是针对那些没有已知解的开放性问题。为了实现可自我验证的数学推理,我们研究了如何针对定理证明训练一个准确且忠实的大模型验证器。随后,我们使用该验证器作为奖励模型来训练证明生成器,并激励生成器在定稿之前尽可能多地识别并解决自身证明中的问题。随着生成器变得更强,为了维持生成与验证之间的差距,我们提出扩展验证计算规模,自动标注那些难以验证的新证明,从而创建训练数据以进一步改进验证器。我们的最终模型 DeepSeekMath-V2 展示了强大的定理证明能力,在扩展测试时计算的情况下,在 IMO 2025 和 CMO 2024 中获得了金牌级分数,并在 Putnam 2024 中取得了近乎完美的 118/120 分。尽管仍有许多工作要做,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,可能有助于开发能力更强的数学 AI 系统。 2. 评估结果 以下是在 IMO-ProofBench(由开发 DeepThink IMO-Gold 的 DeepMind 团队开发)以及近期的数学竞赛(包括 IMO 2025、CMO 2024 和 Putnam 2024)上的评估结果。 IMO-ProofBench 数学竞赛 3. 快速开始 DeepSeekMath-V2 构建于 DeepSeek-V3.2-Exp-Base 之上。 关于推理支持,请参阅 DeepSeek-V3.2-Exp GitHub 仓库。

November 27, 2025 · 1 min · fisherdaddy

告别暴力堆算力:Ilya Sutskever 深度解析 AI 的下一站与 SSI 的野心

本文来自于 Youtube 博主 Dwarkesh Patel 对 Ilya Sutskever(SSI 创始人、前 OpenAI 首席科学家)的最新深度访谈。访谈中,Ilya 谈到为何 Scaling Law 遭遇瓶颈?什么是 AI 真正缺失的“泛化”能力?SSI 为何选择不发产品的“直通”路线?并给出了 AI 未来 5-20 年的终极推演。本文由我和 Gemini 3 Pro 共同整理完成。 身处旧金山湾区,有时候你会觉得这一切都很魔幻。我们正处在科幻小说变成现实的中心,但一切发生得又是如此“平淡”。这或许就是所谓的“缓慢起飞”(Slow Takeoff)——即使我们正把 GDP 的 1% 投入到 AI 中,对于大多数普通人来说,除了新闻里那些令人咋舌的融资数字,生活似乎并没有什么翻天覆地的变化。 但这种平静可能只是暴风雨前的宁静。 最近,Ilya Sutskever 对 AI 行业的现状、技术的瓶颈以及他新公司 SSI (Safe Superintelligence) 的路线图进行了一次极高密度的分享。如果你厌倦了市面上千篇一律的“Scaling Law(缩放定律)万岁”论调,这篇深度解读或许能给你通过迷雾的指引。 一、 悖论:为什么 AI 既聪明又“智障”? 我们现在面临一个非常令人困惑的现象:模型在各种高难度基准测试(Evals)中表现极其出色,看似智商爆表,但在实际经济应用中,甚至在一些简单任务上,却显得笨手笨脚。 举个很典型的“写代码”例子:你让 AI 修复一个 Bug,它说“好哒我修好了”,结果引入了一个新 Bug;你指出新 Bug,它说“哎呀我错了”,结果又把旧 Bug 改回来了。这种死循环在真实开发中并不罕见。 为什么会这样?Ilya 提出了两个解释: RL(强化学习)的副作用:现在的模型经过了大量的 RL 训练。这让它们变得像那种“钻牛角尖”的学生。如果预训练(Pre-training)是让模型通过阅读海量数据来“理解世界”,那么 RL 就像是为了应试而刷题。 “做题家”与“天才”的区别: 现在的 AI 就像一个**“顶级竞赛选手”**,为了拿金牌,它刷了 1 万小时的题,背下了所有解题套路。如果你出的题在它的题库范围内,它秒杀全场。 但我们真正想要的是那种**“有天赋的学生”**,哪怕只学了 100 小时,但他真正“懂”了,具备了举一反三的泛化能力。 目前的业内做法是:为了让模型在编程竞赛中拿高分,就把所有的竞赛题都喂给它,甚至通过数据增强造出更多的题。结果我们得到了一堆“做题机器”,但当你把它放到真实世界那种从未见过的复杂代码库中时,它就因为缺乏真正的“泛化能力”而露馅了。...

November 26, 2025 · 1 min · fisherdaddy

介绍一下 ChatGPT 推出的购物研究功能

2025 年 11 月 24 日,ChatGPT 推出了一项名为 “shopping research” 的新体验,旨在通过自动化的深度研究帮助用户找到合适的产品。与简单的搜索不同,该功能通过询问澄清问题、深入检索互联网信息以及利用 ChatGPT 的记忆功能,为用户生成个性化的买家指南。 关键细节 交互方式与个性化体验 用户只需描述需求(如“为小公寓寻找最安静的无绳吸尘器”),系统便会自动建议使用 “shopping research”。 互动流程:系统会打开一个视觉界面,询问预算、使用对象及关注的功能等问题。 实时反馈:用户可以对推荐的产品标记“不感兴趣”或“类似更多”,引导系统根据实时反馈调整研究方向。 记忆整合:如果开启了记忆功能,系统会结合用户过往的偏好(如对游戏的兴趣)来定制搜索结果。 技术驱动与输出结果 模型支持:该功能由经过强化学习专门训练的 GPT-5 mini 版本驱动,能够阅读受信任的网站并综合多方信息。 最终产出:几分钟后,用户将收到一份包含首选产品、关键差异、权衡分析以及来自可靠零售商最新信息的个性化指南。 高级集成:对于 ChatGPT Pro 用户,该功能还集成在 Pulse 中,可根据过往对话主动建议相关的买家指南(例如讨论过电动自行车后推荐配件)。 透明度、信任与局限性 隐私保护:用户的聊天内容不会与零售商共享,结果基于公开的零售网站生成,避免低质量或垃圾网站。 购买方式:用户可点击链接跳转至商家网站购买,未来将支持通过 Instant Checkout 直接在 ChatGPT 内购买。 准确性提示:尽管模型在引用细节方面表现优于以往,但在价格和库存等信息上仍可能存在误差,建议用户访问商家网站获取最准确的详情。 原文:在 ChatGPT 中推出购物研究功能 一种全新的购物体验,助您找到适合您的产品。 今天,我们推出了“购物研究”(Shopping research),这是 ChatGPT 中的一项新体验,它能为您进行研究,帮助您找到合适的产品。您不再需要浏览几十个网站,只需描述您正在寻找什么——例如“为小公寓寻找最安静的无绳吸尘器”、“帮我在这三辆自行车之间做选择”或“我需要送给我四岁喜欢艺术的侄女一份礼物”——购物研究功能就会生成一份贴心的指南来帮助您做决定。它会提出巧妙的澄清问题,在互联网上进行深度研究,查阅优质来源,并结合 ChatGPT 从过去的对话和记忆中对您的了解,在几分钟内提供个性化的买家指南。 购物研究功能从今天开始在移动端和网页端向 Free、Go、Plus 和 Pro 套餐的已登录 ChatGPT 用户推出。为了协助假日购物,我们在整个假期期间向所有套餐用户提供几乎无限的使用权。 寻找合适的产品 数以亿计的人使用 ChatGPT 来查找、理解和比较产品。他们希望有人帮助理清各种选项,决定什么最符合他们的需求、预算和偏好。 购物研究正是为这种更深层次的决策而构建的。它将产品发现转化为一场对话:提出巧妙的问题以了解您关注的重点,从高质量来源提取准确、最新的详细信息,并将选项反馈给您以筛选结果。它在电子产品、美妆、家居园艺、厨房家电以及运动户外等细节繁多的类别中表现尤为出色。 对于像查询价格或确认功能这样的简单购物问题,常规的 ChatGPT 回复既快速又够用。但当您需要深度信息——如比较、限制条件、权衡取舍时——购物研究会花费几分钟时间,为您提供一份更详细、研究更透彻的答案。 发现新产品 帮我找一台适合游戏的强大新笔记本电脑,价格在 1000 美元以下,屏幕大于 15 英寸...

November 26, 2025 · 1 min · fisherdaddy

介绍一下 Claude Opus 4.5

2025 年 11 月 25 日,Anthropic 正式发布了 Claude Opus 4.5 ,这是目前在编程、智能体(Agent)协作以及计算机操作领域最先进的模型。它在处理深度研究、幻灯片制作和电子表格等日常任务上也有显著提升,代表了 AI 系统能力的又一次飞跃。 关键细节 卓越的编程与推理能力 超越人类的测试成绩:在 Anthropic 内部用于招聘的高难度工程测试中,Claude Opus 4.5 在 2 小时的时间限制内,得分超过了以往所有的人类候选人。 基准测试提升:在 Terminal Bench 测试中,该模型比 Sonnet 4.5 提升了 15% ;在 Excel 自动化任务中,准确率提升了 20% ,效率提升了 15% 。 创造性解决问题:在 $\tau$-bench 测试中(模拟航空公司客服),模型展示了极高的灵活性,通过“先升舱再改签”的合规策略解决了看似无法处理的修改航班请求,体现了深度的推理能力。 成本效益与开发工具 定价与获取:开发者现在可以通过 API 使用 claude-opus-4-5-20251101 ,定价为每百万 token $5 / $25 ,这使得 Opus 级别的能力更加普及。 效率提升:在处理长程编程任务时,该模型可节省高达 65% 的 token 用量。工具调用错误和构建错误减少了 50% 到 75% 。 新的控制参数:API 新增了 “effort parameter” (努力程度参数),允许开发者在速度/成本与极致性能之间进行权衡。在最高设定下,其表现超出 Sonnet 4.5 4....

November 25, 2025 · 3 min · fisherdaddy

Nano Banana Pro 完整开发者教程

本文翻译自 Google 官方发布在 X 上的 nano banana pro 完整开发者教程。 与注重速度和性价比的 Flash 版本不同,Pro 版本引入了“思考”能力、搜索(Search Grounding)以及高保真 4K 输出等高级功能。该模型的三大核心优势在于: 具备思考能力:能够理解和推理复杂的提示词。 搜索溯源(Search Grounding):利用 Google Search 获取实时数据以生成准确的图像。 高质量输出:支持高达 4K 分辨率的图像生成。 关键细节 独特的高级功能 思考过程(The “Thinking” Process):不仅仅是绘画,模型会先进行推理。开发者可以通过设置 include_thoughts=True 来查看模型的“思考”过程,了解其如何解读提示词。 搜索溯源(Search Grounding):模型可以访问实时数据(如天气预报、特定人物信息),生成基于事实的图像。 4K 高分辨率生成:支持 1K、2K 和 4K 分辨率。 多语言能力:能够生成和翻译图像中的文本,支持超过十种语言。 高级图像混合:相比 Flash 版本仅支持 3 张图像,Pro 版本最多可处理 14 张图像的混合,适合制作复杂的拼贴画。 成本与计费信息 定价:生成 1K 或 2K 图像的成本为 $0.134,而 4K 图像的成本为 $0.24(外加 Token 费用)。 节省成本:使用 Batch API 可以节省 50% 的生成成本,但可能需要等待长达 24 小时。 必要设置:必须在 Google Cloud 项目中设置计费,并获取 API 密钥。 技术实现指南 SDK 支持:支持 Python (google-genai) 和 JavaScript SDK。 模型 ID:使用 Pro 模型时需指定 ID 为 gemini-3-pro-image-preview。 基本代码结构:教程提供了初始化客户端、设置 response_modalities(文本/图像)和 aspect_ratio(宽高比)的代码示例。 最佳实践与提示词技巧 为了获得最佳效果,建议遵循以下原则:...

November 24, 2025 · 4 min · fisherdaddy

快速了解一下 OpenAI 发布的 GPT‑5.1-Codex-Max

为了应对 Google 发布的 Gemini 3 Pro,OpenAI 今早发布最强编码模型 GPT-5.1-Codex-Max,该模型建立在基础推理模型的更新之上,专为处理软件工程、数学和研究等领域的代理任务而设计。GPT-5.1-Codex-Max 的核心优势在于处理长期、精细工作的能力。它是首个通过“压缩”过程原生受训以跨越多个上下文窗口运行的模型,能够在单一任务中连贯处理数百万个 Token 。 关键细节 前沿编码能力 真实场景训练: 该模型针对真实的软件工程任务(如创建 PR 、代码审查、前端编码等)进行了训练,在多项前沿编码评估中表现优于前代模型。 环境适应性: GPT-5.1-Codex-Max 是首个受训在 Windows 环境中运行的模型,并针对 Codex CLI (命令行界面)的协作进行了优化。 速度与成本效率 Token 效率提升: 得益于更有效的推理能力,模型在“中等”推理强度下的表现优于 GPT-5.1-Codex ,同时减少了 30% 的思考 Token 使用量。 推理模式: 针对非延迟敏感任务,引入了新的“超高”( ‘xhigh’ )推理模式,通过更长时间的思考提供更好的答案。 成本降低: 效率的提升转化为实际成本的节约,例如在生成高质量前端设计时成本大幅降低。 长期任务处理 压缩技术: 模型能够自动压缩会话历史,在保留关键上下文的同时释放空间,从而突破上下文窗口的限制。 持续工作能力: GPT-5.1-Codex-Max 能独立工作数小时,内部评估显示其可持续执行任务超过 24 小时,适用于项目级重构和深度调试。 安全性与信任 安全沙箱: Codex 默认在受限沙箱中运行,限制文件写入和网络访问,以降低风险。 网络安全: 虽然该模型是目前部署的最强网络安全模型,但尚未达到“高”能力等级。官方建议将 Codex 视为额外的审查者,开发者仍需在部署前人工审查其工作。 可用性与成效 访问方式: 该模型现已面向 ChatGPT Plus 、Pro 、Enterprise 等用户开放,并将取代 GPT-5.1-Codex 成为 Codex 表面的默认模型。API 访问即将推出。 生产力提升: 内部数据显示,使用 Codex 的工程师发布的拉取请求(Pull Requests)数量增加了约 70% 。 原文: 使用 GPT-5....

November 20, 2025 · 2 min · fisherdaddy

AI 智能体的有效上下文工程 • Anthropic

本文由 Anthropic 应用 AI 团队撰写:Effective context engineering for AI agents。其中探讨了从提示工程 (prompt engineering) 到上下文工程 (context engineering) 的演变,并将其定位为构建高效、可控 AI 智能体的关键。文章指出,随着模型能力的增强,核心挑战已从编写完美的提示语转变为精心管理和优化输入给模型的整个信息集(即上下文)。 关键细节 上下文的基本构成与优化 系统提示 (System Prompts):应使用清晰、直接的语言。避免过于具体、僵化的逻辑,也要避免过于模糊、宽泛的指导。建议使用 XML 标签或 Markdown 标题来组织提示结构,使其清晰。 工具 (Tools):工具的设计应追求 token 效率和功能独立性,避免功能重叠导致智能体混淆。一个常见的失败模式是工具集过于臃肿。 示例 (Examples):提供少量(few-shot)但多样化、有代表性的示例,比罗列大量边缘案例效果更好。 动态上下文管理策略 即时上下文检索 (Just in time context):智能体并非预先加载所有数据,而是在运行时使用工具(如读取文件、查询数据库)动态地将所需信息载入上下文。这种方式模拟了人类按需检索信息的习惯,实现了信息的“渐进式披露” (progressive disclosure)。 混合策略 (Hybrid Strategy):在某些场景下,可以结合预先加载部分数据和智能体自主探索,以平衡速度和灵活性。 应对长时程任务的专门技术 对于超出单个上下文窗口容量的长期任务(如大型代码迁移、全面研究项目),可以采用以下技术: 压缩 (Compaction):当对话接近上下文窗口极限时,让模型对现有内容进行总结和压缩,然后带着这个摘要开启一个新的上下文窗口。最简单的压缩形式是清除历史记录中原始的工具调用结果。 结构化笔记 (Structured note-taking):让智能体将关键信息、待办事项或中间结论记录到上下文窗口之外的持久化存储中(如一个 NOTES.md 文件),并在需要时重新读入。这相当于为智能体提供了外部记忆。 子智能体架构 (Sub-agent architectures):将一个复杂任务分解,由一个主智能体进行高层协调,多个专职的子智能体处理具体的子任务。每个子智能体在自己的独立上下文中完成工作,然后将精炼后的结果返回给主智能体。 原文:AI 智能体的有效上下文工程 发布于 2025 年 9 月 29 日 上下文是 AI 智能体的一个关键但有限的资源。在这篇文章中,我们探讨了有效策划和管理为它们提供支持的上下文的策略。 在应用 AI 领域,提示工程 (prompt engineering) 几年来一直是关注的焦点,之后一个新术语开始崭露头角:上下文工程 (context engineering)。使用语言模型进行构建,正变得越来越不局限于为提示找到正确的词语和短语,而是更多地回答一个更广泛的问题:“什么样的上下文配置最有可能产生我们模型的期望行为?”...

November 17, 2025 · 2 min · fisherdaddy