本文是 Anthropic AI 研究院 Julian Schrittwieser 所写,其主要观点是当前公众和许多评论员未能认识到人工智能(AI)正处于指数级增长阶段。人们常常因为当前 AI 模型的局限性而错误地断定其发展已停滞或影响有限,而忽略了其能力在极短时间内取得的飞跃式进步。
主要观点
- 普遍的误解:人们普遍低估了 AI 发展的指数级速度。他们关注于当前 AI 模型的错误和不完美之处,从而得出其发展已达瓶颈的错误结论,而忽视了其背后持续且迅速的能力增长趋势。
- 指数级增长是现实:作者引用多项研究证明,AI 在软件工程和跨行业通用任务上的能力正遵循着清晰的指数级增长曲线,并且这种趋势没有放缓的迹象。
- 未来预测:基于当前的发展趋势进行推断,AI 将在未来几年内对经济产生颠覆性影响。作者预测,到 2026 年中,AI 将能自主完成长达 8 小时的工作任务,并在 2026 年底在多个行业中达到人类专家的水平。
关键细节
METR 研究:
- 一项名为 “Measuring AI Ability to Complete Long Tasks” 的研究,专注于衡量 AI 模型自主完成软件工程任务的能力。
- 研究结果显示出一条明显的指数增长曲线,能力的“倍增”周期约为 7 个月。
- 最新的模型如
Grok 4
、Opus 4.1
和GPT-5
的表现不仅验证了这一趋势,甚至略高于预期,已能处理超过 2 小时的任务。
GDPval 评估:
- 由
OpenAI
发起,旨在评估 AI 在更广泛经济领域中的应用能力,涵盖了 9 个行业的 44 个职业。 - 评估任务由平均拥有 14 年经验的行业专家提供,总计 1320 项任务。
- 结果再次显示了类似的增长趋势。值得注意的是,
Claude Opus 4.1
在这项评估中的表现优于OpenAI
自家的GPT-5
,几乎达到了行业专家的水平。作者称赞了OpenAI
公布这一结果的诚信行为。
- 由
对未来的展望:
- 2026 年中:模型将能够自主工作一整个工作日(8 小时)。
- 2026 年底:至少会有一个模型在多个行业中的表现能与人类专家相媲美。
- 2027 年底:模型在许多任务上的表现将频繁超越人类专家。
原文
当前关于AI进展和所谓“泡沫”的论述,让我想起了新冠疫情爆发的最初几周。在通过指数级趋势的推断,即将到来的全球大流行的时间和规模已经显而易见之后很长一段时间,政治家、记者和大多数公共评论员仍将其视为一个遥远的可能性或一个局部现象。
类似奇怪的事情也正在AI能力及其进一步发展上发生。人们注意到,尽管AI现在可以编写程序、设计网站等,但它仍然经常犯错或走向错误的方向,然后他们就莫名其妙地得出结论,认为AI将永远无法达到人类水平来完成这些任务,或者只会产生微小的影响。而就在几年前,让AI做这些事情还完全是科幻小说里的情节!又或者,当他们看到两个连续发布的模型,在与它们的对话中并未注意到太大差异时,他们就断定AI的发展正进入平台期,规模化扩展已经结束。
METR
准确评估AI的进展是困难的,通常需要结合AI专业知识和特定领域的理解。幸运的是,有像METR这样的组织,其唯一目的就是研究AI的能力!我们可以参考他们最近的研究《衡量AI完成长任务的能力》,该研究衡量了模型能够自主完成的软件工程任务的长度:
我们可以观察到一个清晰的指数级增长趋势,其中Sonnet 3.7表现最佳,能够以50%的成功率完成长达一小时的任务。
然而,目前Sonnet 3.7已经发布7个月了,这恰好与METR在研究中声称的倍增周期相同。我们可以用这一点来验证METR的发现是否站得住脚吗?
是的!事实上,METR自己在其研究网站上维护着一个实时更新的图表:
我们可以看到图表右上角新增了最近的模型,如Grok 4、Opus 4.1和GPT-5。预测不仅得到了验证,这些新模型实际上还略高于趋势线,现在已经能执行超过2小时的任务了!
GDPval
一个合理的反对意见可能是,我们不能将软件工程任务上的表现推广到更广泛的经济领域——毕竟,这些是AI实验室的工程师们最熟悉的任务,可以说,这在某种程度上对测试集造成了过拟合。
幸运的是,我们可以参考另一项研究,即OpenAI最近发布的GDPval——它衡量了模型在9个行业的44个(!)职业中的表现:
评估任务来源于经验丰富的行业专家(平均拥有14年经验),每个职业30个任务,总计1320个任务。评分是通过对人类和模型生成的解决方案进行盲测比较来完成的,结果既可以有明确的偏好,也可以是平局。
同样,我们可以观察到一个类似的趋势,最新的GPT-5已经惊人地接近人类的表现:
你可能会反对说,这张图看起来像是在趋于平缓,但这很可能主要是因为GPT-5非常注重消费者市场而造成的一种假象。对我们来说幸运的是,OpenAI在评估中也包含了其他模型,我们可以看到Claude Opus 4.1(发布早于GPT-5)的表现要好得多——领先于前一张图中的趋势线,并且已经几乎能与行业专家(!)的表现相媲美:
我在这里特别想称赞OpenAI,他们发布的评估结果显示了另一家实验室的模型超越了他们自己的模型——这是正直和关心有益AI成果的好迹象!
展望
鉴于多年来、跨多个行业的性能呈指数级提升的持续趋势,如果这种进步突然停止,那将是极其令人惊讶的。相反,即使对这些趋势进行相对保守的推断也表明,2026年将是AI广泛融入经济的关键一年:
- 到2026年中期,模型将能够自主工作一整天(8个工作小时)。
- 在2026年底前,至少会有一款模型在许多行业中的表现能与人类专家相媲美。
- 到2027年底,模型在许多任务上的表现将经常超越专家。
这听起来可能过于简单化了,但通过在图表上外推直线来进行预测,可能会比大多数“专家”——甚至比大多数实际的领域专家——更能让你准确地描绘未来!
要想更具体地了解这个未来会是什么样子,我推荐Epoch AI的2030年报告,特别是深入的AI 2027项目。