大规模测试时计算的影响
署名: Noam Brown(@polynoamial) 来源: X 原文 说明: 本文完全由有道龙虾翻译、整理和发布。 太长不读: 随着大语言模型能力越来越强,基准测试表现越来越取决于测试时计算量。事实上,我们很可能并不知道现代大语言模型的能力上限在哪里,因为测量它太昂贵了。我们应该改变大语言模型评估方式,把性能与 token、成本或时间之间的关系纳入衡量。 GPT-5.5 发布当天,最初的反应是怀疑。基准测试数字更好了,但好得不多: 然而,几个小时内,等人们有时间实际试用这个模型后,大家就明显感受到它相比 GPT-5.4 是一次阶跃式提升。经典的“基准测试表格”显然没有讲完整个故事。 为什么会这样?当我们把 token 放在 x 轴上比较 GPT-5.5 和 5.4 时,原因就更清楚了: 左图:在一个网络安全评估中,如果按各自“最大”测试时计算量来衡量,5.5 的表现看起来并没有比 5.4 好太多。右图:在另一个网络安全评估中,一旦控制 token、成本或延迟,就能清楚看到 5.5 比 5.4 强得多。 GPT-5.5 并不是在与 5.4 相同的 token 预算(或美元预算)下接受评估的。一旦我们控制测试时计算量,5.5 看起来就比 5.4 强得多。 我讨论这个问题时,人们经常问,为什么我们不直接用一个评估框架,不断增加测试时计算量,直到性能进入平台期。问题是,根据经验,平台期非常遥远。有时在实际可承受的预算内,我们甚至可能根本观察不到平台期。 下面是 @karpathy 的 autoresearch 实验,性能在数百次实验之后仍在持续提升: 这里还有 @AISecurityInst 的网络安全评估,Mythos 和 GPT-5.5 的表现即使在 1 亿 token 之后仍在快速提升: 注意,对于更强的模型,随时间推移带来的性能提升也更强。看起来很可能是,随着模型变强,它们也更擅长在更长时间跨度上运行。平台期被推得更远,甚至可能消失。 因此,我认为评估模型的正确方式,是绘制性能与测试时计算量的关系图,并在 x 轴上使用 token、成本或真实耗时。一些基准测试已经朝这个方向转变。例如,ARC-AGI 衡量的是分数与成本之间的关系。 另一个合理选择是设置明确的 token、时间或成本预算,并把这个预算告知模型。这类似于人类在 SAT 或国际数学奥林匹克竞赛等场景中的评估方式。 每一种 x 轴都有权衡。Token 在不同模型之间并不能直接比较,因为分词器、速度和单 token 成本都不同。美元成本取决于批处理、硬件利用率等实现细节,因此成本和延迟之间可以相互权衡。最后,真实耗时也不是完美指标,因为 best-of-N 这类多智能体技术可以扩展测试时计算量,而不显著增加延迟。...