本文由 Rich Sutton 撰写，强调了在人工智能（AI）研究中，利用计算能力的通用方法是最有效的。这一结论主要归因于摩尔定律，即计算成本的持续下降。尽管研究者们倾向于依赖人类知识来提高短期性能，但长期来看，依赖计算能力的提升才是关键。文章通过计算机国际象棋、围棋、语音识别和计算机视觉等领域的案例，说明了过度依赖人类知识的方法最终会限制进步，而真正的突破往往源于对计算能力的有效利用。

计算机国际象棋：
- 1997 年，计算机通过深度搜索击败了国际象棋世界冠军卡斯帕罗夫。尽管研究者们希望基于人类理解的复杂方法能获胜，但简单的搜索方法最终显示出更大的有效性。
计算机围棋：
- 类似的情况在围棋中也出现。研究者们最初投入大量精力试图避免搜索，依赖人类知识，但最终通过大规模搜索和自我对弈学习取得了成功。
语音识别：
- 1970年代，DARPA 赞助的语音识别比赛中，基于人类知识的特殊方法未能胜出，统计方法（如隐马尔可夫模型）获得了成功。深度学习的兴起进一步表明，依赖计算和学习的统计方法在语音识别中占据主导地位。
计算机视觉：
- 早期的视觉识别方法侧重于寻找边缘和特征，而现代深度学习神经网络则采用卷积等更为通用的方法，表现出更好的效果。
总结教训：
- AI 研究者常常试图将人类知识嵌入到系统中，短期内有效但长期会导致停滞。真正的进步来自于通过搜索和学习来扩展计算能力。
- 研究者应认识到，思维内容的复杂性无法简单化，应该构建能够捕捉复杂性的元方法，而不是试图将已有发现直接嵌入AI系统中。

痛苦的教训

Rich Sutton

2019年3月13日

从70年的AI研究中，我们学到的最重要的一课是：利用计算资源的通用方法最终是最有效的，且远胜其他方法。其背后的根源在于摩尔定律的延伸，即计算成本的持续指数级下降。大多数AI研究都是在假设智能体的计算能力固定的前提下进行的（在这种情况下，借助人类知识是提升性能的主要途径），但在稍长于常规研究周期的时间内，计算能力必然会大幅增长。研究人员为了在短期内见效，往往选择依赖领域专家的知识，然而从长远来看，唯一重要的还是如何最大化利用计算资源。这两种方法理论上并不冲突，但实际中常常是对立的。花在一种方法上的时间会挤占另一种方法的研究，而研究者对某种方法的投入往往带有心理上的偏好。基于人类知识的方法通常会使系统变得更复杂，从而削弱了其利用计算资源的能力。AI研究领域中，研究者往往是经历了多次失败后，才领悟到这一“痛苦的教训”，这里回顾一些经典的案例很有启发意义。

在计算机象棋领域，1997年击败世界冠军卡斯帕罗夫的方法主要依赖于大规模深度搜索。当时，大多数象棋AI研究者对这种方式感到不满，因为他们一直专注于基于人类对象棋结构理解的方法。当一种简单的搜索策略结合专用硬件和软件，证明其效果远胜于人类知识驱动的方法时，这些研究者无法接受。他们声称“蛮力”搜索可能赢了这一局，但这并不是一个通用策略，也不符合人类下棋的方式。这些研究者希望基于人类知识的方法取胜，结果却让他们失望。

类似的研究进展也出现在计算机围棋领域，只是时间上晚了20年。起初，大量研究尝试通过利用人类知识或围棋的特殊规则来避免搜索，但随着大规模搜索的有效应用，这些努力都变得无关紧要，甚至产生了负面影响。另一个重要的因素是通过自我对弈学习价值函数（这一点在其他许多游戏中也适用，甚至在1997年击败世界冠军的象棋程序中，只是学习并未起主要作用）。自我对弈学习和一般意义上的学习，像搜索一样，能够充分发挥计算资源的威力。搜索和学习是AI研究中利用大规模计算资源的两大关键技术。在计算机围棋领域，与象棋类似，研究者们最初将精力放在如何通过人类理解来减少搜索需求，但最终接受搜索和学习后才取得了更大的成功。

在语音识别领域，20世纪70年代有一场由DARPA赞助的竞赛。参赛者中包括了许多基于人类知识的特殊方法，如对单词、音素和人类声道的理解。而另一派则是基于隐马尔可夫模型（HMM）的新方法，这些方法更依赖统计计算。最终，统计方法胜过了基于人类知识的方法。这场胜利引发了整个自然语言处理领域的变革，统计学和计算逐渐占据主导地位。深度学习在语音识别中的崛起是这一趋势的最新发展。深度学习方法更少依赖人类知识，更多依赖大规模计算和海量数据训练，极大提升了语音识别的效果。与游戏领域类似，研究者们总是试图让系统模仿他们的思维方式，将人类知识嵌入系统中，但事实证明，当摩尔定律带来的计算能力大量涌现，且有了更好的利用方式后，这种做法是无效的，甚至浪费了大量研究者的时间和精力。

在计算机视觉领域，也有类似的模式。早期方法将视觉理解为寻找边缘、通用圆柱体或基于SIFT特征。然而如今，这些方法已经被淘汰。现代深度神经网络仅依赖卷积和某些不变性概念，且效果远超前人。

这是一个重要的教训。作为一个领域，我们还没有完全吸取这课，因为我们仍在重复类似的错误。要认识到并有效避免这些错误，我们需要理解这些错误背后的吸引力。我们必须吸取这个“痛苦的教训”：试图模拟我们自认为的思维方式，从长远来看是行不通的。这一教训基于几个历史事实：1）AI研究者往往试图将知识直接嵌入智能体中，2）这种方法在短期内总是有效且令人满意，3）但从长远来看，这种方法会停滞甚至阻碍进一步进展，4）突破性进展最终通过相反的方法实现，即通过搜索和学习扩展计算能力。这种成功往往伴随着苦涩，因为它取代了人们更偏好的以人为中心的路径。

从这个“痛苦的教训”中应当汲取的一点是，通用方法的巨大潜力，这些方法可以随着计算能力的增加而不断扩展。搜索和学习是两种在这方面表现出无限扩展性的技术。

另一个从“痛苦的教训”中得出的普遍原则是，心智的实际内容极其复杂且难以简化；我们应该停止试图用简单的方法去理解心智内容，如空间、物体、多智能体或对称性的简单模型。这些都是外部世界中任意且本质上复杂的一部分，不应被直接嵌入系统中，因为它们的复杂性是无穷无尽的；相反，我们应该只嵌入能够发现和捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似解，但这个寻找过程应该由我们的元方法完成，而非我们手动设计。我们需要的是像我们一样能发现新知识的AI智能体，而不是简单地包含我们已有知识的系统。嵌入已有的发现只会使我们更难理解发现过程的本质。

痛苦的教训#

痛苦的教训