署名: Noam Brown(@polynoamial

来源: X 原文

说明: 本文完全由有道龙虾翻译、整理和发布。

图像 1

太长不读: 随着大语言模型能力越来越强,基准测试表现越来越取决于测试时计算量。事实上,我们很可能并不知道现代大语言模型的能力上限在哪里,因为测量它太昂贵了。我们应该改变大语言模型评估方式,把性能与 token、成本或时间之间的关系纳入衡量。

GPT-5.5 发布当天,最初的反应是怀疑。基准测试数字更好了,但好得不多:

图像 2

然而,几个小时内,等人们有时间实际试用这个模型后,大家就明显感受到它相比 GPT-5.4 是一次阶跃式提升。经典的“基准测试表格”显然没有讲完整个故事。

为什么会这样?当我们把 token 放在 x 轴上比较 GPT-5.5 和 5.4 时,原因就更清楚了:

图像 3

左图:在一个网络安全评估中,如果按各自“最大”测试时计算量来衡量,5.5 的表现看起来并没有比 5.4 好太多。右图:在另一个网络安全评估中,一旦控制 token、成本或延迟,就能清楚看到 5.5 比 5.4 强得多。

GPT-5.5 并不是在与 5.4 相同的 token 预算(或美元预算)下接受评估的。一旦我们控制测试时计算量,5.5 看起来就比 5.4 强得多。

我讨论这个问题时,人们经常问,为什么我们不直接用一个评估框架,不断增加测试时计算量,直到性能进入平台期。问题是,根据经验,平台期非常遥远。有时在实际可承受的预算内,我们甚至可能根本观察不到平台期。

下面是 @karpathy 的 autoresearch 实验,性能在数百次实验之后仍在持续提升:

图像 4

这里还有 @AISecurityInst 的网络安全评估,Mythos 和 GPT-5.5 的表现即使在 1 亿 token 之后仍在快速提升:

图像 5

注意,对于更强的模型,随时间推移带来的性能提升也更强。看起来很可能是,随着模型变强,它们也更擅长在更长时间跨度上运行。平台期被推得更远,甚至可能消失。

因此,我认为评估模型的正确方式,是绘制性能与测试时计算量的关系图,并在 x 轴上使用 token、成本或真实耗时。一些基准测试已经朝这个方向转变。例如,ARC-AGI 衡量的是分数与成本之间的关系。

图像 6

另一个合理选择是设置明确的 token、时间或成本预算,并把这个预算告知模型。这类似于人类在 SAT 或国际数学奥林匹克竞赛等场景中的评估方式。

每一种 x 轴都有权衡。Token 在不同模型之间并不能直接比较,因为分词器、速度和单 token 成本都不同。美元成本取决于批处理、硬件利用率等实现细节,因此成本和延迟之间可以相互权衡。最后,真实耗时也不是完美指标,因为 best-of-N 这类多智能体技术可以扩展测试时计算量,而不显著增加延迟。

不过,这些曲线中的任何一种,都比单个标量更有信息量。

对 AI 准备工作的影响

在前沿模型发布之前,实验室通常会评估网络安全、生物安全以及其他误用风险。如果模型越过某个能力阈值,那么发布可能会被推迟,直到缓解措施到位。

但如果能力是推理计算量的函数,那么安全评估应该在什么推理预算下运行?

实践中,大多数用于模型发布的安全评估并不会考虑模型推理投入了多少计算量。Gemini 3 Deep Think 的发布以及由此引发的强烈反应,就是一个有用的例子。

Gemini 3 Deep Think 发布时,它的基准测试分数远高于之前的模型。然而,并没有同步发布一份评估其风险的模型卡。

图像 7

这引发了 AI 安全社区中一些人的愤怒。

图像 8

在我看来,对 DeepMind 这次发布的批评忽略了更深层的问题:AI 实验室和安全组织在评估模型发布时,并没有持续一致地考虑测试时计算量。

Deep Think 看起来很可能是由其他已经有系统卡的模型搭建出的脚手架。外部任何人很可能也能复现这样的脚手架。换句话说,只要有人愿意支付 Deep Think 级别的推理成本,通过把一堆模型查询组合起来,Deep Think 的能力很可能本来就已经可得。Deep Think 只是让普通用户更方便地使用这种能力。

在我看来,真正应该让人愤怒的是,当 Gemini 3 和其他模型发布时,它们的系统卡没有把基准测试表现作为测试时计算量的函数来衡量。

在我理想中的世界里,模型评估应该长这样:

图像 9

一个专门的国家级行动者可以把超过 1000 万美元的推理计算投入到单个任务中。但评估一个模型通常涉及成千上万,甚至数百万次 rollout,因此对每次 rollout 都使用如此高的计算预算是不现实的。

幸运的是,性能似乎会随着推理计算量的增加而以某种可预测方式扩展。因此,我们可以在相对较低的推理预算下进行评估,然后预测(并给出不确定性)在更高预算下可能具备的能力。

长周期评估会引入一些复杂性,而这些复杂性未必总能通过从小预算运行中外推来解决。例如,我们可能会发现,要自信地评估一个 AI 智能体在 1 年时间跨度上的失配风险,唯一方法就是实际运行这个智能体一年。

AI 实验室可能很快会陷入一个奇怪处境:其智能体的运行时间跨度超过了新模型的开发周期。到那时,如果不推迟模型发布,就可能无法在发布前完成一个模型在其最大运行生命周期上的评估。

具体建议

具体来说,我对 AI 社区有以下建议:

  • AI 实验室应发布新模型的基准测试表现,并以 token、成本或时间作为 x 轴。至少,实验室应该报告实现某个标量基准结果所使用的推理预算。
  • 基准测试应在排行榜上追踪推理使用量,或者设定明确的 token、成本或时间预算。许多基准测试已经转向这个方向,但这还不是标准做法。
  • 准备框架和负责任扩展政策在判断模型是否越过安全阈值时,应明确考虑推理计算量。此外,评估应估计模型在多个推理预算下的能力,包括从较小预算运行中外推,并说明不确定性。

如果你关注我有一段时间了,这整篇文章可能看起来没什么新东西。自 2024 年 9 月 o1 发布以来,我们就已经知道,推理模型的性能会随着更多推理计算而扩展。

然而,近两年过去了,前沿 AI 实验室仍然常常为新模型发布报告单一数字的基准结果;AI 安全组织仍然会在一个脚手架通过使用 100 倍推理预算取得更好表现时感到惊讶;准备框架和 RSP 在判断模型是否达到关键能力水平时,仍然常常忽略推理计算使用量。

最新模型比以往更能利用测试时计算,把性能平台期推得更远。如果这种趋势持续下去,而我完全预计它会持续,那么不考虑推理计算使用量的基准分数,在每一轮模型发布周期中都会变得越来越没有信息量。

因此,是时候把推理预算视为能力测量和安全政策中的一等要素了。