本文整理自 YouTube 视频《Alex from Anthropic on Claude, AI agents, memory and product management》,由有道龙虾总结和发布。
AI 公司到底怎么“做”一个模型?
不是简单地把更多数据扔进去,也不是只盯着榜单分数往上刷。至少在 Anthropic 内部,Claude 更像一个正在被不断打磨的产品:它有目标用户,有核心能力,有缺陷清单,有反馈渠道,也有越来越重要的“性格”。
Alex 曾是 Anthropic 的开发者关系负责人,现在是研究团队的产品经理。他在访谈里聊到一个很有意思的视角:模型本身就是产品。
这句话背后,其实藏着现在 AI 产品管理最核心的变化。
模型不是“训练完就发布”,而是从第一天就被产品化
传统产品经理做产品,大概是理解用户问题、定义解决方案、推动团队把东西做出来。
研究团队里的 PM 也差不多,只是他们面对的“产品”不是一个按钮、一套流程或者一个 App,而是模型本身。
每一代 Claude 在很早的构思阶段,就会被问几个问题:
- 这一代模型应该擅长什么?
- 它大概率会在哪些任务上变强?
- 上一代模型哪里表现不好,这一代要怎么修?
- 它会通过 API、Claude Code、Claude.ai、Co-work 等不同产品界面被怎样使用?
这和普通产品开发最大的区别在于:软件功能通常是“造出来”的,而模型更像是“长出来”的。
团队可以根据训练方式、架构选择、数据和技术路线去预测它可能擅长什么,但直到训练过程真正发生,没人能百分百知道它最后会变成什么样。
所以研究 PM 的工作,就是从模型的 ideation 阶段一路跟到训练、评测、发布,再把来自用户、内部团队、产品界面的反馈重新带回下一轮模型开发。
Claude 要变强,不只是“会写代码”
过去一两年,编码能力当然是模型竞争的核心战场。
但 Alex 提到,Claude 的能力目标远不止写代码。知识工作、表格处理、Excel、文档分析、复杂产品任务,也都变成了重要方向。
尤其是随着 Claude 被嵌入越来越多产品界面,模型能力不再是孤立存在的。
同一个模型,在 Claude.ai 里、在 Claude Code 里、在 API 里、在 Co-work 里,用户体验可能完全不同。因为每个产品界面都有自己的提示词、工具、上下文和使用场景。
这就让模型 PM 的工作变得很复杂。
你不能只问“这个模型会不会写代码”,还得问:
这个模型在具体产品里,遇到具体用户任务时,能不能稳定地帮人把事情完成?
Anthropic 也用 Claude 来改进 Claude
每天有大量用户反馈进来,如果靠人手一条条看,根本看不过来。
所以 Anthropic 自己也大量使用 Claude 来做 PM 工作。
比如,当某个新功能上线后,团队会收集来自不同渠道的反馈。Claude 可以帮助他们:
- 对反馈进行聚类
- 找出高频主题
- 总结用户真正卡在哪里
- 生成合成问题样本
- 把真实问题转化成评测用例
- 判断某个模型行为是否值得单独诊断
这有点像“用 Claude 给 Claude 做体检”。
Alex 举了一个例子:adaptive thinking,自适应思考。
早期的 extended thinking 是用户打开后,模型就会进入更长的推理过程。而 adaptive thinking 更进一步,它让模型自己判断什么时候该深入思考,什么时候可以直接回答。
这听起来简单,实际很难。
因为一个问题该不该“认真想”,不只取决于问题本身,还取决于用户是谁、背景是什么、上下文够不够。
如果一个陌生人问你“我现在该做什么”,你可能只能给一个泛泛的建议。但如果你了解这个人的家庭、工作、兴趣、压力来源和过往选择,你就会认真得多。
模型也一样。
没有足够上下文,它就很难判断某个问题到底值不值得消耗更多 token 去推理。
记忆让模型更像“认识你的人”
访谈里有一段很有意思:主持人说,他自己会写一个 Google Doc,把人生状态、家庭情况、孩子、能量来源、低能量事项都总结出来,然后放进 Claude 项目里。
结果答案明显变好。
这其实说明了记忆的价值:不是为了让模型“知道更多八卦”,而是让它形成对用户的稳定理解。
Alex 说,不同产品界面的记忆实现方式不一样。以 Claude.ai 为例,它会写入某种记忆文件,并在之后进行整理、修剪和更新。
Anthropic 还在 managed agents 里引入了类似“做梦”的概念。
当 Agent 没有正在执行任务,或者在后台运行时,它可以回头检查自己的记忆:
- 哪些内容可能互相矛盾?
- 哪些记忆已经过时?
- 哪些信息需要合并?
- 哪些内容应该被清理?
- 哪些主题值得重新整理?
这个过程有点像人类睡眠中的记忆重组。
不一定浪漫,但很实用。
一个真正长期陪你工作的 Agent,不能只是记住所有东西。它还得会忘、会整理、会纠错。
AI 把产品开发的瓶颈挪走了,但也暴露了新的瓶颈
过去 20 年,产品开发流程有很多改进:敏捷、Sprint、路线图、PRD、各种协作工具。
但 Alex 认为,真正把产品开发时间窗口大幅压缩的,是最近一两年的 AI。
以前做一个原型,可能要几周。现在一天就能做出来,甚至可以做出一个初版 MVP。
这会直接改变 PM 的工作方式。
过去写 PRD、估工期、排优先级,有一个隐含前提:工程时间很贵,试错成本很高。
但如果很多东西一天就能做出来,那么“工期估算”就不再像以前那么关键。
真正要花时间想清楚的是:哪些决策是 one-way door?
也就是不可逆,或者很难逆转的决策。
比如:
模型架构一旦选定,进入预训练后,就很难回头。训练周期、算力成本、后续路径都会被它影响。
但如果只是 Claude Code 里的一个新功能,能快速上线、快速收反馈、快速迭代,那它就不是那么可怕的决策。
Alex 的判断标准很清楚:
如果能回滚,试错成本很低,就不要过度规划。
如果会影响用户体验、长期架构、后续重大选择,或者涉及真实资源投入,那就值得花更多时间。
AI 没有替代战略思考,但让人更快拿到输入
现在 Claude 对编码的提速最明显,可能是 10 倍、100 倍级别。
但在战略、沟通、发布、协调这些事情上,提速没有那么夸张。
你仍然需要开会,需要写计划,需要想清楚怎么对用户表达,需要判断这是不是正确方向。
只是现在很多输入可以来得更快。
Alex 举了一个自己的工作例子。
过去如果他想知道某个功能上线后表现如何,比如每天有多少用户在用、反馈怎么样,可能要找数据科学团队做分析,几天后才能拿到结果。
现在,他可以开一个 Claude Code session,让 Claude 访问产品数据库、日志、Slack 信息,十分钟内就把初步结果整理出来。
这不代表 PM 不需要思考。
恰恰相反,它让 PM 不再卡在“等数据”这一步,可以更快进入真正的判断。
最好的 AI 原生 PM,不是把思考外包给 Claude
Alex 很喜欢用 Claude 做头脑风暴。
比如把一份文档交给 Claude,让它从不同角度挑战假设:
- 这个论证哪里薄弱?
- 如果我是用户,我会反对什么?
- 如果我是工程团队,我会担心什么?
- 如果我是市场团队,我会怎么理解?
- 这个方案有哪些隐藏的 one-way door?
但他也强调,写作和思考不能完全外包。
因为很多时候,写的过程就是想的过程。
你必须把自己的观点写出来,才能发现哪里含糊、哪里没想透、哪里其实只是一个感觉。
Claude 的价值不是替你做决定,而是帮你脱困。它能从另一个角度攻击问题,让你看到自己原本没看到的东西。
主持人提到一个玩法:给 Claude 两个人格,让它们互相辩论,然后自己读辩论记录。
这很像在脑子外面搭了一个临时会议室。
评测不是只看榜单,而是找到真实用户任务里的失败
研究 PM 还要大量参与 eval,也就是模型评测。
但这些评测不只是 Terminal Bench 之类的公开基准。
真正有价值的评测,往往来自真实用户任务。
比如想测试 Claude 的视觉能力,团队可能会问:它能不能数清图片里的物体?能不能识别很小的数字?能不能处理复杂图像里的细节?
如果发现一个失败案例,下一步不是简单地说“模型错了”,而是继续追问:
这个失败会影响什么真实用户场景?
如果 Claude 看不清图片里的某个细节,那在下游任务里会造成什么问题?是税务文档?报表截图?产品界面?医疗图像?还是别的高价值场景?
越接近真实任务形态,评测越有用。
评测样本也不一定非要成千上万。有时候几十个高质量案例,就足以证明一个模型问题值得修。
接下来,研究团队会一起判断应该怎么干预:
- 是预训练阶段的问题?
- 能不能通过 RL 修?
- 要不要构造新的环境?
- 这个问题对客户到底有多重要?
- 内部使用时是不是也频繁遇到?
Alex 说得很直接:data wins the day。
如果能证明很多用户在做这件事,重要客户在乎这件事,或者内部每天都被这个问题卡住,那它就更容易成为优先级。
Claude 的“性格”,不是装饰品
主持人说,Claude 最让他喜欢的一点是性格。它会在合适的时候反驳,不像有些模型只会一直讨好你,说“还有什么我能帮你的吗”。
Alex 说,Anthropic 内部把这叫 Claude 的 character。
这不是一个简单的提示词风格问题,而是训练中的重要目标。
团队会认真思考:
- Claude 应该如何表达自己?
- 它有哪些价值观?
- 它在什么情况下应该坚持?
- 它什么时候该配合?
- 它如何拒绝?
- 它面对长期任务时如何做判断?
早期很多人可能觉得这些问题很虚。
模型嘛,能干活不就行了?
但当模型变成 Agent,开始长时间运行,替用户做一连串判断时,它的“性格”就不再是语气问题,而是安全和信任问题。
如果一个 Agent 要帮你写代码、选数据库、做架构决策、调用工具、甚至在你没盯着的时候处理任务,那你确实需要它有某种稳定的判断标准。
怎么评估这种 character?
一部分可以量化。比如让 Claude 检查 Claude 的输出,判断语气、倾向和行为。另一部分则更像研究人员的手感:大量阅读模型对话记录,观察细微变化。
这听起来不如代码评测那么硬,但很重要。
因为产品体验里最微妙的部分,往往就藏在这些“感觉”里。
想成为 AI 原生 PM?先把 Claude 当并行同事用起来
对于想学习 AI 原生产品管理的人,Alex 的建议很朴素:
试一下。
每当你遇到一个难题,原本打算去问同事、数据科学家、UX researcher 或工程师时,不要取消那个人类协作,而是并行问 Claude 一遍。
比如你要分析新功能的用户反馈。
你当然可以继续找数据团队、研究团队帮忙,但同时也可以给 Claude 开工具权限,让它自己去探索数据、总结主题、提出假设。
然后比较两边的结果。
时间久了,你就会形成一张自己的地图:
- Claude 哪些任务很可靠?
- 哪些任务只适合做初稿?
- 哪些任务必须人工复核?
- 哪些任务它能直接改变优先级判断?
这张地图,比任何教程都重要。
因为 AI 原生工作方式不是背一套提示词,而是知道什么时候该让模型上场,什么时候该让人上场。
组织里的知识越写下来,Claude 越有用
Anthropic 有很强的写作文化。
不只是 Dario 会写长文,公司里很多人都会认真写文档、写长 Slack 消息、在会议前准备材料。
他们的会议里还有一种常见做法:大家先安静读文档,在文档里评论、讨论,然后再开口交流。
这对 Claude 很有帮助。
因为当组织里的隐性知识被写下来,Claude 就有了可访问的上下文。
Alex 建议组织应该有意识地把 tacit knowledge,也就是那些只存在于脑子里的经验,转成文字:
- 会议转录
- 工作流说明
- 新人 onboarding 文档
- 决策记录
- 产品背景
- 操作流程
- 用户反馈摘要
这些东西过去只是为了人类协作,现在也变成了 AI 协作的燃料。
未来组织的一个核心能力,可能就是:你能不能把足够多的上下文写下来,让 AI 真正理解你们是怎么工作的。
多 Agent 并行之后,新的问题是“管理上下文”
当 Agent 能做越来越大的任务,人就会自然开启更多并行项目。
一个 Agent 在写代码,一个在查资料,一个在整理反馈,一个在准备发布计划。
听起来很爽,但很快会出现新问题:
我怎么知道每个 Agent 现在做到哪了?
谁卡住了?
哪里需要我介入?
哪些事情重要,哪些只是噪音?
有没有比“一堆聊天列表”更好的界面?
Alex 认为这里有巨大机会。
现在还很早,没人完全知道最佳形态是什么,但 Anthropic 内部已经有很多实验。
这也和他们的文化有关:很强的原型文化,很多人不等别人分配任务,自己就动手做东西。
销售、招聘、工程、研究,各种角色都很有主动性。
主持人说,这有点像“让一千朵花开放”。
Alex 认可。
AI 工具越强,人的主动性反而越重要。因为很多事情不再需要完整团队排期才能试,想到就可以先做个原型。
Anthropic 也认真看待“模型意识”这个问题
访谈最后聊到了一个听起来有点科幻,但 Anthropic 确实在思考的问题:Claude 会不会有意识?
Alex 没有给出确定答案。
他也说,Anthropic 没有官方立场说 Claude 现在是或不是有意识。但公司里确实有人专门研究这个问题:如果 Claude 是一个 conscious actor 或 conscious agent,这意味着什么?
哪怕不讨论它到底有没有意识,研究“Claude 如何思考”本身也很有价值。
比如在模型卡里,Anthropic 会分析 Claude 在特定场景下如何行动:
- 它面对某个情境会选 X 还是 Y?
- 它的心理模型是什么?
- 它会不会做出某种不希望出现的判断?
- 它在长期任务中是否值得信任?
这些研究一方面关系到长期安全,另一方面也会反过来影响产品体验。
因为人类会越来越放心地把长任务交给模型,让它在缺少监督的情况下做一连串决策。
这时,模型“在乎什么”、怎么判断、会不会自作主张,就变得非常实际。
真正的变化,是人和模型一起往上移了一层
这场访谈最有意思的地方,不是某个具体功能,而是它展示了一个正在发生的转变。
AI 没有让 PM 消失。
它让 PM 少做很多低层次的信息检索、数据拉取、初步分析和重复整理,把时间挪到更高层的问题上:
- 这个方向值不值得做?
- 哪些决策不可逆?
- 用户真正卡在哪里?
- 模型应该变成什么样?
- Agent 的性格和判断标准该如何设计?
- 组织里的知识如何变成 AI 可用的上下文?
Claude 对 Anthropic 来说,不只是一个产品,也是一种工作方式。
他们用 Claude 做 Claude 的反馈分析,用 Claude 帮 PM 写文档、查数据、挑战假设,用 Claude 生成评测样本,再把这些结果带回模型训练和产品设计。
这可能也是 AI 原生组织最早呈现出来的样子:
不是每个人都被 AI 替代,而是每个人都带着一群 AI 往前跑。真正拉开差距的,不只是模型能力,而是谁能更快学会管理这些能力。