本文来自 Andrej Karpathy 的 blog，我这里将其翻译为了中文。

在这之前先介绍一下文章标题里一个名字：Licklider，他的全名是 J. C. R. Licklider 是计算机科学和互联网发展的先驱，他的愿景和研究为现代交互式计算和全球计算机网络（即互联网）的诞生奠定了基础。他不仅在技术上有远见，预见了图形计算、时间共享系统、网络计算等概念，还通过资助和管理关键项目推动了这些技术的实现。他的工作直接影响了诸如 ARPANET（互联网的前身）、人机交互界面、以及人工智能的早期发展。

早期生平与教育背景
Licklider 于 1915 年出生于美国密苏里州圣路易斯。他在华盛顿大学获得了物理、数学和心理学的学士学位，并在罗切斯特大学获得了心理学硕士和博士学位，专攻心理声学。
职业生涯与学术贡献
- 他早期在哈佛大学和麻省理工学院（MIT）任职，参与了 SAGE 项目（半自动地面环境），这是冷战时期的计算机辅助防空系统。
- 在 MIT，他负责了人机交互的研究，并在 1960 年发表了具有里程碑意义的论文《人机共生》，预见了未来计算机与人类合作的方式。
推动互联网的先驱
- Licklider 是互联网概念的最早提出者之一，1962 年他在一系列备忘录中提出了 “Intergalactic Computer Network” 的设想，这一设想后来演变为 ARPANET。
- 他在 ARPA（高级研究计划署）担任信息处理技术办公室（IPTO）主任期间，资助了多个关键项目，包括 MIT 的 Project MAC 和斯坦福大学的研究，这些项目推动了时间共享技术和网络计算的发展。
人机共生与人工智能
- Licklider 的研究重点是如何通过计算机增强人类智能，而不是完全取代人类。他提出的 “人机共生” 概念预见了计算机将承担繁琐的任务，从而帮助人类在科学和技术思维中做出更高层次的决策。
- 他还对人工智能持谨慎态度，认为计算机虽然可以在未来某天主导思维过程，但在短期内，人类仍然会设定目标并进行评估。
计算机网络与全球通信
- Licklider 的愿景不仅限于个人计算机的交互式使用，他还预见了全球计算机网络的潜力。他的 1968 年论文《计算机作为通信设备》详细描述了计算机网络将如何支持跨地域的合作和交流，这一设想成为了现代互联网的基础。
其他贡献
- Licklider 还在心理声学领域做出了重要贡献，提出了 “双重音高感知理论”，并进行了有关双耳语音去遮蔽效应的研究。
- 他是互动小说游戏公司 Infocom 的创始成员之一，推动了计算机游戏领域的发展。

Licklider 的远见卓识不仅影响了计算机科学的技术发展，还改变了人们对计算机在社会中的角色的理解。他的工作为现代计算机网络、人工智能和人机交互奠定了基础。

本文摘要

Licklider 在其 1960 年的文章《Man-Computer Symbiosis》中，提出了计算机作为“智能增强”工具的概念。他认为，虽然完全自动化（即人工智能，AI）可能是未来的终极目标，但智能增强（IA）这一阶段将持续足够长的时间，值得深入思考和研究。Licklider 还预测了计算机在人类生活中扮演的角色，尤其是军事和日常任务中的应用。然而，许多当时的预测由于技术和数据的限制未能实现，今天的计算机技术发展方向与他预期的有所不同。

智能增强与自动化的对比
Licklider 认为，计算机在未来会逐步从智能增强工具过渡到完全自动化。然而，尽管当时的研究对人工智能和广义人工智能（AGI）充满乐观，实际进展远未达到预期。今天，AI 领域的主流方法（如大语言模型，LLMs）在当时是不可想象的，因为当时的计算能力和数据规模都无法支持。
计算机在军事中的应用
Licklider 预测计算机将在 20 年内能够独立解决具有军事意义的问题，但事实证明这一预言过于乐观。即便 64 年后的今天，计算机在军事决策中的作用仍主要是辅助人类，完全自动化的军事决策尚未实现。
人类与计算机的互补性
Licklider 观察到，人类的许多“思考”过程实际上是机械化、可自动化的数据收集和可视化工作。他认为，计算机擅长处理这些繁琐的任务，而人类则擅长更复杂的思考工作。虽然这一观点在过去 64 年里一直占据主导地位，但最近几年，随着大语言模型的出现，计算机在“思考”方面也开始展现出潜力。
未来的计算基础设施
Licklider 设想了一种基于时间共享的“思考中心”，类似于今天的云计算。他还预测了一些计算任务会变得足够廉价，以至于可以在本地硬件上完成，这与今天的笔记本电脑等设备的功能相符。
编程语言的发展
Licklider 讨论了编程语言的设计，认为未来的语言应该更加符合人类的思维习惯。他提到人类更擅长设定目标而非给出详细指令，这暗示了声明式编程的可能性。然而，64 年后，主流编程语言依然是简单的命令式语言，Python 是其中的典型代表。
输入/输出（I/O）模式的演变
Licklider 设想的未来计算设备是人类围绕大屏幕进行协作的场景，类似于今天的多人协作工具（如 Figma），但这种交互模式并未成为主流。相反，文本输入（键盘和鼠标）和显示输出的模式主导了几十年，直到移动设备的出现才有所改变。
语音识别的预测
Licklider 对语音识别技术的预测过于乐观，他认为 5 年内该技术会成熟，但实际上经过 64 年的发展，语音识别技术才达到了足够好的水平（如 Whisper 的发布）。尽管有了显著进步，语音识别仍未成为主流的计算机输入方式。
对 Licklider 的反思
文章最后通过“后见之明”对 Licklider 的预测进行了反思，指出他的许多想法在今天的技术条件下得到了部分验证或修正。虽然他的智能增强理论是正确的，但许多技术细节（如编程语言、I/O 模式和语音识别）并未如他预期般快速发展。

Licklider 1960

2023 年 12 月 27 日

我喜欢读科技预测类的文章，因为借助事后诸葛亮的视角，过去的预测就像未来预测的训练数据。例如，我最喜欢的作品之一是 Arthur C. Clarke 的《未来的概貌》。本文记录了我对 J.C.R. Licklider 在 64 年前撰写的《人机共生》 (Man-Computer Symbiosis) 这篇经典著作的一些笔记，Licklider 设想了计算机作为一种智能增强工具的未来。

在文中，Licklider 认为“智能增强” (Intelligence Augmentation, IA) 可能只是通向完全自动化 (人工智能, AI) 的一个过渡阶段，但这个阶段足够长，值得我们深入思考。

他引用了当时关于狭义人工智能 (AI) 和通用人工智能 (AGI) 的快速进展（如“通用问题解决器” (General Problem Solver) [20]），这些进展后来被证明是根本上的错误方向。当时，人工智能依赖手工编码知识，使用谓词逻辑和生产规则来进行推理和得出结论。如今，人工智能领域对这些早期工作仅作为历史上的一段趣闻，它们并没有成为该领域的“主流分支”，而是卡在了一个“死胡同”式的支线中。而今天被视为最有前途的做法——大语言模型 (LLMs)，在当时不仅在计算上不可实现，而且由于缺乏数以万亿计的 Token 训练数据，也是不可能的。那么，如今有什么相似的技术挑战呢？

当年空军的一项研究曾预测，机器将在 20 年内能够独立解决具有军事意义的问题，今天看来有些可笑。有趣的是，“20 年后”似乎成了“没想好但很久以后”的代名词。甚至可以说，64 年后的今天，计算机虽然极大提升了态势感知能力，但“军事意义”的决策仍然掌握在人类手中。

Licklider 观察到，在日常计算任务中，大多数“思考”并不是真正的思考，而是机械化、可自动化的数据收集和可视化工作。他据此得出结论，人类和计算机的优势是互补的——计算机可以处理繁杂的任务，而人类则专注于思考。接下来的 64 年里，这一观点一直主导着发展，直到最近一年左右，计算机才开始以一种通用、可扩展且影响经济的方式涉足“思考”，这种思考方式不是通过硬性的谓词逻辑实现的，而是通过隐性的、统计学的方法实现的。这也是大语言模型 (LLMs) 推动的“AI 盛夏”的由来。

接着，Licklider 设想了智能增强的计算基础设施的未来。他所设想的基于分时技术 (time-sharing) 的“思维中心”，今天可以类比为云计算。不过，某些计算任务已经变得如此廉价，能够在本地的消费级硬件上完成，比如我的笔记本电脑可以进行简单的计算和文字处理，尽管利用率低，但无所谓。

在“语言问题”部分，Licklider 谈到设计更方便人类使用的编程语言。他提到 FORTRAN 这样的命令式语言，但也指出人类不太擅长明确的指令，而更擅长设定目标。也许未来的编程语言可以更接近这种目标设定方式，这暗示了声明式编程 (Declarative Programming) 的可能性（如 Prolog）。然而，64 年后的今天，主流编程范式依然是命令式的。Python 可能是当前最受欢迎的编程语言之一，它只是一个更易于使用的命令式语言，非常适合人类使用，读写起来像伪代码。

在 I/O 交互部分，Licklider 明显偏向于一个人类团队围绕大型显示器合作绘制图表的交互模式。显然，Licklider 的设想类似于一个大型多人互动的 iPad。但我认为这是一个重大误判。类似的产品确实出现过，但并未成为主流计算范式。相反，在接下来的几十年里，文本占据了主导地位，显示器主导输出，键盘和鼠标则主导输入，直到今天依然如此。虽然移动计算时代引入了触摸屏，但并没有像预期那样主导交互方式。像 Licklider 想象的多人可视化环境确实存在（如 Figma 等工具），但它们远未成为主流交互方式。这种误判的原因可能在于，Licklider 依赖于自己熟悉的纸笔模式，设想计算会模仿这种界面，而实际上键盘和鼠标才是计算机和人类之间更好的交互方式。

Licklider 反复提到计算机在军事中的应用，我猜这是那个时代的热门话题。我觉得这是另一个关于计算机应用于社会的错误预测。也许部分原因是 Licklider 当时为政府工作，许多研究资金也来自这一领域。虽然计算确实在改善军事决策方面发挥了作用，但其影响远不及它在企业和消费领域的应用。

在 I/O 交互部分，Licklider 还设想了适应人类交互的计算机，例如自动语音识别。在这一点上，他明显过于乐观，认为 5 年内语音识别技术就能成熟。然而，64 年后的今天，尽管语音识别软件已广泛存在，但其质量远未达到成为主流计算交互方式的水平。直到两年前，随着 Whisper 的发布，人们才再次为语音识别感到兴奋。想象一下，如果 Licklider 看到今天的现实会有何感想。即使语音识别最近取得了显著的进展，它依然容易出错，无法很好地处理多位发言者，而且还远未成为主流的输入方式。

如果我们现在能够以今天的视角向 Licklider 提供一些事后智慧，或许会包括以下几点：

你关于智能增强 (IA) 持续很长时间的预测是正确的，还有“思维中心”的构想。
你所知的“思考”方面的所有人工智能 (AI) 研究确实会有应用，但最终会被淘汰。今天认为“正确”的方法在你那个时代是无法实现的。你必须先发明互联网，并大幅提升计算机速度，不是通过 CPU，而是通过 GPU。不过，很多机械化和重复性工作确实会极大提升效率，成为人类大脑的延伸，正如你所设想的那样。
大多数编程语言仍然是命令式的，但变得更加便捷。
大多数 I/O 交互依然是键盘和鼠标作为输入，显示器作为输出，通常是一个人与一台计算机单独操作，但通过网络虚拟连接。
计算的主要应用领域是企业和消费者，军事领域的应用较少。
语音识别技术会花费 62 年，而不是 5 年，才能达到日常使用的质量水平。

这一切的乐趣在于“时光滑动窗口”，假设时间上具有平移不变性。想象一下你对未来的推测，再设想它的事后视角。这项练习留给读者 :)

这篇文章最早以推文的形式发布，之后被手动转成了这篇博文（我得找个更好的方法）。

本文摘要#

Licklider 1960#

2023 年 12 月 27 日

本文摘要

Licklider 1960