生成式 AI 项目的自动化评估的迭代构建法 • Andrew Ng
本文是 Andrew Ng 在 Deeplearning.AI 官方网站发布的一篇文章。Andrew Ng 指出,在开发生成式 AI ( GenAI )应用时,许多团队过晚引入自动化评估( evals ),并过度依赖人工评估,因为他们将构建 evals 视为一项庞大的前期投资。作者提倡采用迭代方法来构建 evals ,即从简单、快速的版本开始,然后逐步改进,从而更早地利用自动化评估加速项目进展。 延迟原因:构建 evals 被视为需要大量前期工作(如创建数百甚至上千示例、设计和验证指标),且 LLM-as-judge 等现有技术实施细节复杂,让人觉得不如暂时依赖人工评估。 迭代构建 evals 的方法: 从小规模开始:可以从极少数示例(例如 5 个)开始,并根据需要逐步增加或删减。 评估部分维度:初期可以只关注部分核心性能指标,或那些与整体性能相关的、易于测量的指标,无需追求一开始就全面覆盖。 具体示例: 对于客服机器人,初期可只评估是否正确调用了退款 API ,暂不评估回复消息的质量。 对于产品推荐机器人,初期可只检查是否提及了正确的产品,而不必关心具体描述方式。 双重迭代循环:开发过程包含两个并行的迭代: 迭代改进 AI 系统本身(依据自动化 evals 和人工判断)。 迭代改进 evals 本身,使其评估结果更贴近人工判断。 成功 evals 的标准: 如果人工判断系统 A 显著优于 B,则 evals 应给予 A 显著更高的分数。 如果 A 和 B 性能相似,则 evals 分数也应相近。 Evals 的“错误分析”:当 evals 对系统 A 和 B 的排序与人工判断不符时,应视其为 evals 本身的“错误”,并对其进行调整优化,使其能正确反映系统间的相对性能。 最终建议:尽管项目初期依赖人工判断是可行的,但尽早引入简单的自动化 evals 并持续迭代,能更有效地加速 GenAI 应用的开发进程。 原文 Dear friends,...