本文由 Rich Sutton 撰写,强调了在人工智能(AI)研究中,利用计算能力的通用方法是最有效的。这一结论主要归因于摩尔定律,即计算成本的持续下降。尽管研究者们倾向于依赖人类知识来提高短期性能,但长期来看,依赖计算能力的提升才是关键。文章通过计算机国际象棋、围棋、语音识别和计算机视觉等领域的案例,说明了过度依赖人类知识的方法最终会限制进步,而真正的突破往往源于对计算能力的有效利用。
-
计算机国际象棋:
- 1997 年,计算机通过深度搜索击败了国际象棋世界冠军卡斯帕罗夫。尽管研究者们希望基于人类理解的复杂方法能获胜,但简单的搜索方法最终显示出更大的有效性。
-
计算机围棋:
- 类似的情况在围棋中也出现。研究者们最初投入大量精力试图避免搜索,依赖人类知识,但最终通过大规模搜索和自我对弈学习取得了成功。
-
语音识别:
- 1970年代,DARPA 赞助的语音识别比赛中,基于人类知识的特殊方法未能胜出,统计方法(如隐马尔可夫模型)获得了成功。深度学习的兴起进一步表明,依赖计算和学习的统计方法在语音识别中占据主导地位。
-
计算机视觉:
- 早期的视觉识别方法侧重于寻找边缘和特征,而现代深度学习神经网络则采用卷积等更为通用的方法,表现出更好的效果。
-
总结教训:
- AI 研究者常常试图将人类知识嵌入到系统中,短期内有效但长期会导致停滞。真正的进步来自于通过搜索和学习来扩展计算能力。
- 研究者应认识到,思维内容的复杂性无法简单化,应该构建能够捕捉复杂性的元方法,而不是试图将已有发现直接嵌入AI系统中。
痛苦的教训
Rich Sutton
2019年3月13日
从70年的AI研究中,我们学到的最重要的一课是:利用计算资源的通用方法最终是最有效的,且远胜其他方法。其背后的根源在于摩尔定律的延伸,即计算成本的持续指数级下降。大多数AI研究都是在假设智能体的计算能力固定的前提下进行的(在这种情况下,借助人类知识是提升性能的主要途径),但在稍长于常规研究周期的时间内,计算能力必然会大幅增长。研究人员为了在短期内见效,往往选择依赖领域专家的知识,然而从长远来看,唯一重要的还是如何最大化利用计算资源。这两种方法理论上并不冲突,但实际中常常是对立的。花在一种方法上的时间会挤占另一种方法的研究,而研究者对某种方法的投入往往带有心理上的偏好。基于人类知识的方法通常会使系统变得更复杂,从而削弱了其利用计算资源的能力。AI研究领域中,研究者往往是经历了多次失败后,才领悟到这一“痛苦的教训”,这里回顾一些经典的案例很有启发意义。
在计算机象棋领域,1997年击败世界冠军卡斯帕罗夫的方法主要依赖于大规模深度搜索。当时,大多数象棋AI研究者对这种方式感到不满,因为他们一直专注于基于人类对象棋结构理解的方法。当一种简单的搜索策略结合专用硬件和软件,证明其效果远胜于人类知识驱动的方法时,这些研究者无法接受。他们声称“蛮力”搜索可能赢了这一局,但这并不是一个通用策略,也不符合人类下棋的方式。这些研究者希望基于人类知识的方法取胜,结果却让他们失望。
类似的研究进展也出现在计算机围棋领域,只是时间上晚了20年。起初,大量研究尝试通过利用人类知识或围棋的特殊规则来避免搜索,但随着大规模搜索的有效应用,这些努力都变得无关紧要,甚至产生了负面影响。另一个重要的因素是通过自我对弈学习价值函数(这一点在其他许多游戏中也适用,甚至在1997年击败世界冠军的象棋程序中,只是学习并未起主要作用)。自我对弈学习和一般意义上的学习,像搜索一样,能够充分发挥计算资源的威力。搜索和学习是AI研究中利用大规模计算资源的两大关键技术。在计算机围棋领域,与象棋类似,研究者们最初将精力放在如何通过人类理解来减少搜索需求,但最终接受搜索和学习后才取得了更大的成功。
在语音识别领域,20世纪70年代有一场由DARPA赞助的竞赛。参赛者中包括了许多基于人类知识的特殊方法,如对单词、音素和人类声道的理解。而另一派则是基于隐马尔可夫模型(HMM)的新方法,这些方法更依赖统计计算。最终,统计方法胜过了基于人类知识的方法。这场胜利引发了整个自然语言处理领域的变革,统计学和计算逐渐占据主导地位。深度学习在语音识别中的崛起是这一趋势的最新发展。深度学习方法更少依赖人类知识,更多依赖大规模计算和海量数据训练,极大提升了语音识别的效果。与游戏领域类似,研究者们总是试图让系统模仿他们的思维方式,将人类知识嵌入系统中,但事实证明,当摩尔定律带来的计算能力大量涌现,且有了更好的利用方式后,这种做法是无效的,甚至浪费了大量研究者的时间和精力。
在计算机视觉领域,也有类似的模式。早期方法将视觉理解为寻找边缘、通用圆柱体或基于SIFT特征。然而如今,这些方法已经被淘汰。现代深度神经网络仅依赖卷积和某些不变性概念,且效果远超前人。
这是一个重要的教训。作为一个领域,我们还没有完全吸取这课,因为我们仍在重复类似的错误。要认识到并有效避免这些错误,我们需要理解这些错误背后的吸引力。我们必须吸取这个“痛苦的教训”:试图模拟我们自认为的思维方式,从长远来看是行不通的。这一教训基于几个历史事实:1)AI研究者往往试图将知识直接嵌入智能体中,2)这种方法在短期内总是有效且令人满意,3)但从长远来看,这种方法会停滞甚至阻碍进一步进展,4)突破性进展最终通过相反的方法实现,即通过搜索和学习扩展计算能力。这种成功往往伴随着苦涩,因为它取代了人们更偏好的以人为中心的路径。
从这个“痛苦的教训”中应当汲取的一点是,通用方法的巨大潜力,这些方法可以随着计算能力的增加而不断扩展。搜索和学习是两种在这方面表现出无限扩展性的技术。
另一个从“痛苦的教训”中得出的普遍原则是,心智的实际内容极其复杂且难以简化;我们应该停止试图用简单的方法去理解心智内容,如空间、物体、多智能体或对称性的简单模型。这些都是外部世界中任意且本质上复杂的一部分,不应被直接嵌入系统中,因为它们的复杂性是无穷无尽的;相反,我们应该只嵌入能够发现和捕捉这种任意复杂性的元方法。这些方法的核心在于它们能够找到良好的近似解,但这个寻找过程应该由我们的元方法完成,而非我们手动设计。我们需要的是像我们一样能发现新知识的AI智能体,而不是简单地包含我们已有知识的系统。嵌入已有的发现只会使我们更难理解发现过程的本质。