揭开 AI Agent 评估的神秘面纱 • Anthropic

本文翻译自 Anthropic 官方技术博客:Demystifying evals for AI agents。 主要观点 有效的评估(Evals)是团队自信地发布 AI Agent 的基础。与单轮对话的 LLM 不同,Agent 涉及多轮交互、工具调用和状态修改,这使得它们更难评估。缺乏评估会导致团队陷入被动的“打地鼠”模式,仅能在生产环境中发现问题。相反,建立评估体系能让问题在早期显现,量化改进效果,并促进产品与研究团队的协作。 一个完整的评估体系包括任务(Task)、评分器(Grader)、评估工具(Harness)和数据集(Suite)。针对不同类型的 Agent(如代码、对话、研究、计算机操作),需要采用不同的评估策略。评分器通常结合了基于代码的确定性检查、基于模型的灵活评分(LLM-as-judge)以及人工审核,以平衡速度、成本和准确性。 构建评估体系不需要一开始就追求完美。文章提出了一个实用的路线图:从少量的现实失败案例开始,逐步建立无歧义的任务集,设计稳健的测试环境和评分逻辑,并长期维护。重要的是要结合自动化评估、生产监控、A/B 测试和人工审查,形成一个多层次的质量保障网络(类似瑞士奶酪模型),以全面理解 Agent 的性能。 关键细节 核心定义与组件 构建 Agent 评估时涉及以下关键概念: Task (任务):具有定义输入和成功标准的单个测试用例。 Trial (尝试):对任务的一次执行,通常需要多次运行以应对非确定性。 Grader (评分器):对 Agent 表现进行打分的逻辑,可包含多个断言。 Transcript (实录):完整的交互记录,包括输出、工具调用和推理过程。 Outcome (结果):试验结束时环境的最终状态(例如数据库中是否存在预定记录)。 不同类型 Agent 的评估策略 Coding Agents:通常使用确定性评分器。例如 SWE-bench Verified 通过运行单元测试来验证代码修复是否成功。 Conversational Agents:侧重于交互质量和任务完成度。常使用 LLM 模拟用户进行多轮对话,并结合状态检查(如工单是否解决)和语气评分。 Research Agents:评估较为主观。策略包括检查内容的依据性(Groundedness)、覆盖率(Coverage)和来源质量。 Computer Use Agents:在沙盒环境中运行,通过检查截图或 DOM 状态来验证结果。例如 WebArena 和 OSWorld。 评分器类型 基于代码 (Code-based):如字符串匹配、静态分析。优点是快速、便宜、客观;缺点是缺乏灵活性。 基于模型 (Model-based):如 LLM 评分量表。优点是灵活、能捕捉细微差别;缺点是成本较高,需人工校准。 人工评分 (Human):专家审查。优点是质量金标准;缺点是昂贵且慢,通常用于校准模型评分器。 处理非确定性与指标 由于 Agent 行为在不同运行间存在差异,文章提出了两个关键指标:...

January 11, 2026 · 4 min · fisherdaddy