本文来自 Andrej Karpathy 的 blog,我这里将其翻译为了中文。
在这之前先介绍一下文章标题里一个名字:Licklider,他的全名是 J. C. R. Licklider 是计算机科学和互联网发展的先驱,他的愿景和研究为现代交互式计算和全球计算机网络(即互联网)的诞生奠定了基础。他不仅在技术上有远见,预见了图形计算、时间共享系统、网络计算等概念,还通过资助和管理关键项目推动了这些技术的实现。他的工作直接影响了诸如 ARPANET(互联网的前身)、人机交互界面、以及人工智能的早期发展。
- 早期生平与教育背景
Licklider 于 1915 年出生于美国密苏里州圣路易斯。他在华盛顿大学获得了物理、数学和心理学的学士学位,并在罗切斯特大学获得了心理学硕士和博士学位,专攻心理声学。 - 职业生涯与学术贡献
- 他早期在哈佛大学和麻省理工学院(MIT)任职,参与了 SAGE 项目(半自动地面环境),这是冷战时期的计算机辅助防空系统。
- 在 MIT,他负责了人机交互的研究,并在 1960 年发表了具有里程碑意义的论文《人机共生》,预见了未来计算机与人类合作的方式。
- 推动互联网的先驱
- Licklider 是互联网概念的最早提出者之一,1962 年他在一系列备忘录中提出了 “Intergalactic Computer Network” 的设想,这一设想后来演变为 ARPANET。
- 他在 ARPA(高级研究计划署)担任信息处理技术办公室(IPTO)主任期间,资助了多个关键项目,包括 MIT 的 Project MAC 和斯坦福大学的研究,这些项目推动了时间共享技术和网络计算的发展。
- 人机共生与人工智能
- Licklider 的研究重点是如何通过计算机增强人类智能,而不是完全取代人类。他提出的 “人机共生” 概念预见了计算机将承担繁琐的任务,从而帮助人类在科学和技术思维中做出更高层次的决策。
- 他还对人工智能持谨慎态度,认为计算机虽然可以在未来某天主导思维过程,但在短期内,人类仍然会设定目标并进行评估。
- 计算机网络与全球通信
- Licklider 的愿景不仅限于个人计算机的交互式使用,他还预见了全球计算机网络的潜力。他的 1968 年论文《计算机作为通信设备》详细描述了计算机网络将如何支持跨地域的合作和交流,这一设想成为了现代互联网的基础。
- 其他贡献
- Licklider 还在心理声学领域做出了重要贡献,提出了 “双重音高感知理论”,并进行了有关双耳语音去遮蔽效应的研究。
- 他是互动小说游戏公司 Infocom 的创始成员之一,推动了计算机游戏领域的发展。
Licklider 的远见卓识不仅影响了计算机科学的技术发展,还改变了人们对计算机在社会中的角色的理解。他的工作为现代计算机网络、人工智能和人机交互奠定了基础。
本文摘要
Licklider 在其 1960 年的文章《Man-Computer Symbiosis》中,提出了计算机作为“智能增强”工具的概念。他认为,虽然完全自动化(即人工智能,AI)可能是未来的终极目标,但智能增强(IA)这一阶段将持续足够长的时间,值得深入思考和研究。Licklider 还预测了计算机在人类生活中扮演的角色,尤其是军事和日常任务中的应用。然而,许多当时的预测由于技术和数据的限制未能实现,今天的计算机技术发展方向与他预期的有所不同。
-
智能增强与自动化的对比
Licklider 认为,计算机在未来会逐步从智能增强工具过渡到完全自动化。然而,尽管当时的研究对人工智能和广义人工智能(AGI)充满乐观,实际进展远未达到预期。今天,AI 领域的主流方法(如大语言模型,LLMs)在当时是不可想象的,因为当时的计算能力和数据规模都无法支持。 -
计算机在军事中的应用
Licklider 预测计算机将在 20 年内能够独立解决具有军事意义的问题,但事实证明这一预言过于乐观。即便 64 年后的今天,计算机在军事决策中的作用仍主要是辅助人类,完全自动化的军事决策尚未实现。 -
人类与计算机的互补性
Licklider 观察到,人类的许多“思考”过程实际上是机械化、可自动化的数据收集和可视化工作。他认为,计算机擅长处理这些繁琐的任务,而人类则擅长更复杂的思考工作。虽然这一观点在过去 64 年里一直占据主导地位,但最近几年,随着大语言模型的出现,计算机在“思考”方面也开始展现出潜力。 -
未来的计算基础设施
Licklider 设想了一种基于时间共享的“思考中心”,类似于今天的云计算。他还预测了一些计算任务会变得足够廉价,以至于可以在本地硬件上完成,这与今天的笔记本电脑等设备的功能相符。 -
编程语言的发展
Licklider 讨论了编程语言的设计,认为未来的语言应该更加符合人类的思维习惯。他提到人类更擅长设定目标而非给出详细指令,这暗示了声明式编程的可能性。然而,64 年后,主流编程语言依然是简单的命令式语言,Python 是其中的典型代表。 -
输入/输出(I/O)模式的演变
Licklider 设想的未来计算设备是人类围绕大屏幕进行协作的场景,类似于今天的多人协作工具(如 Figma),但这种交互模式并未成为主流。相反,文本输入(键盘和鼠标)和显示输出的模式主导了几十年,直到移动设备的出现才有所改变。 -
语音识别的预测
Licklider 对语音识别技术的预测过于乐观,他认为 5 年内该技术会成熟,但实际上经过 64 年的发展,语音识别技术才达到了足够好的水平(如 Whisper 的发布)。尽管有了显著进步,语音识别仍未成为主流的计算机输入方式。 -
对 Licklider 的反思
文章最后通过“后见之明”对 Licklider 的预测进行了反思,指出他的许多想法在今天的技术条件下得到了部分验证或修正。虽然他的智能增强理论是正确的,但许多技术细节(如编程语言、I/O 模式和语音识别)并未如他预期般快速发展。
Licklider 1960
2023 年 12 月 27 日
我喜欢读科技预测类的文章,因为借助事后诸葛亮的视角,过去的预测就像未来预测的训练数据。例如,我最喜欢的作品之一是 Arthur C. Clarke 的《未来的概貌》。本文记录了我对 J.C.R. Licklider 在 64 年前撰写的《人机共生》 (Man-Computer Symbiosis) 这篇经典著作的一些笔记,Licklider 设想了计算机作为一种智能增强工具的未来。
在文中,Licklider 认为“智能增强” (Intelligence Augmentation, IA) 可能只是通向完全自动化 (人工智能, AI) 的一个过渡阶段,但这个阶段足够长,值得我们深入思考。
他引用了当时关于狭义人工智能 (AI) 和通用人工智能 (AGI) 的快速进展(如“通用问题解决器” (General Problem Solver) [20]),这些进展后来被证明是根本上的错误方向。当时,人工智能依赖手工编码知识,使用谓词逻辑和生产规则来进行推理和得出结论。如今,人工智能领域对这些早期工作仅作为历史上的一段趣闻,它们并没有成为该领域的“主流分支”,而是卡在了一个“死胡同”式的支线中。而今天被视为最有前途的做法——大语言模型 (LLMs),在当时不仅在计算上不可实现,而且由于缺乏数以万亿计的 Token 训练数据,也是不可能的。那么,如今有什么相似的技术挑战呢?
当年空军的一项研究曾预测,机器将在 20 年内能够独立解决具有军事意义的问题,今天看来有些可笑。有趣的是,“20 年后”似乎成了“没想好但很久以后”的代名词。甚至可以说,64 年后的今天,计算机虽然极大提升了态势感知能力,但“军事意义”的决策仍然掌握在人类手中。
Licklider 观察到,在日常计算任务中,大多数“思考”并不是真正的思考,而是机械化、可自动化的数据收集和可视化工作。他据此得出结论,人类和计算机的优势是互补的——计算机可以处理繁杂的任务,而人类则专注于思考。接下来的 64 年里,这一观点一直主导着发展,直到最近一年左右,计算机才开始以一种通用、可扩展且影响经济的方式涉足“思考”,这种思考方式不是通过硬性的谓词逻辑实现的,而是通过隐性的、统计学的方法实现的。这也是大语言模型 (LLMs) 推动的“AI 盛夏”的由来。
接着,Licklider 设想了智能增强的计算基础设施的未来。他所设想的基于分时技术 (time-sharing) 的“思维中心”,今天可以类比为云计算。不过,某些计算任务已经变得如此廉价,能够在本地的消费级硬件上完成,比如我的笔记本电脑可以进行简单的计算和文字处理,尽管利用率低,但无所谓。
在“语言问题”部分,Licklider 谈到设计更方便人类使用的编程语言。他提到 FORTRAN 这样的命令式语言,但也指出人类不太擅长明确的指令,而更擅长设定目标。也许未来的编程语言可以更接近这种目标设定方式,这暗示了声明式编程 (Declarative Programming) 的可能性(如 Prolog)。然而,64 年后的今天,主流编程范式依然是命令式的。Python 可能是当前最受欢迎的编程语言之一,它只是一个更易于使用的命令式语言,非常适合人类使用,读写起来像伪代码。
在 I/O 交互部分,Licklider 明显偏向于一个人类团队围绕大型显示器合作绘制图表的交互模式。显然,Licklider 的设想类似于一个大型多人互动的 iPad。但我认为这是一个重大误判。类似的产品确实出现过,但并未成为主流计算范式。相反,在接下来的几十年里,文本占据了主导地位,显示器主导输出,键盘和鼠标则主导输入,直到今天依然如此。虽然移动计算时代引入了触摸屏,但并没有像预期那样主导交互方式。像 Licklider 想象的多人可视化环境确实存在(如 Figma 等工具),但它们远未成为主流交互方式。这种误判的原因可能在于,Licklider 依赖于自己熟悉的纸笔模式,设想计算会模仿这种界面,而实际上键盘和鼠标才是计算机和人类之间更好的交互方式。
Licklider 反复提到计算机在军事中的应用,我猜这是那个时代的热门话题。我觉得这是另一个关于计算机应用于社会的错误预测。也许部分原因是 Licklider 当时为政府工作,许多研究资金也来自这一领域。虽然计算确实在改善军事决策方面发挥了作用,但其影响远不及它在企业和消费领域的应用。
在 I/O 交互部分,Licklider 还设想了适应人类交互的计算机,例如自动语音识别。在这一点上,他明显过于乐观,认为 5 年内语音识别技术就能成熟。然而,64 年后的今天,尽管语音识别软件已广泛存在,但其质量远未达到成为主流计算交互方式的水平。直到两年前,随着 Whisper 的发布,人们才再次为语音识别感到兴奋。想象一下,如果 Licklider 看到今天的现实会有何感想。即使语音识别最近取得了显著的进展,它依然容易出错,无法很好地处理多位发言者,而且还远未成为主流的输入方式。
如果我们现在能够以今天的视角向 Licklider 提供一些事后智慧,或许会包括以下几点:
- 你关于智能增强 (IA) 持续很长时间的预测是正确的,还有“思维中心”的构想。
- 你所知的“思考”方面的所有人工智能 (AI) 研究确实会有应用,但最终会被淘汰。今天认为“正确”的方法在你那个时代是无法实现的。你必须先发明互联网,并大幅提升计算机速度,不是通过 CPU,而是通过 GPU。不过,很多机械化和重复性工作确实会极大提升效率,成为人类大脑的延伸,正如你所设想的那样。
- 大多数编程语言仍然是命令式的,但变得更加便捷。
- 大多数 I/O 交互依然是键盘和鼠标作为输入,显示器作为输出,通常是一个人与一台计算机单独操作,但通过网络虚拟连接。
- 计算的主要应用领域是企业和消费者,军事领域的应用较少。
- 语音识别技术会花费 62 年,而不是 5 年,才能达到日常使用的质量水平。
这一切的乐趣在于“时光滑动窗口”,假设时间上具有平移不变性。想象一下你对未来的推测,再设想它的事后视角。这项练习留给读者 :)
这篇文章最早以推文的形式发布,之后被手动转成了这篇博文(我得找个更好的方法)。