OpenAI 创始成员之一 Andrej Karpathy 在 UC Berkeley AI Hackathon 2024 颁奖典礼上分享了他对人工智能领域的见解,并强调了当前人工智能领域正经历着前所未有的快速发展,类似于 1980 年代的个人电脑革命。他认为,大型语言模型 (LLMs) 正成为新的计算范式,类似于个人电脑中的中央处理器,并正在改变我们与技术互动的方式。Karpathy 还强调了项目和实践在人工智能领域取得成功的关键作用,并分享了他个人经历中的一些成功案例。

➡️ 人工智能领域正在经历快速发展,大型语言模型 ( LLMs ) 正在成为新的计算范式,类似于个人电脑中的中央处理器。

➡️ LLMs 将在未来改变我们与技术互动的方式,并可能在数字和物理世界中自动化许多任务。

➡️ Karpathy 还强调了项目和实践在人工智能领域取得成功的关键作用,并分享了他个人经历中的一些成功案例,例如他早期在 YouTube 上发布的游戏编程教程,最终帮助他发展了教学事业。

➡️ 他还强调了 “一万小时定律” 的重要性,并鼓励听众投入大量时间进行实践,以积累经验和专业知识。

➡️ Karpathy 认为,项目可以帮助人们深入学习,并鼓励他们将项目发布到网络上,以提高工作质量并获得反馈。

➡️ 他总结说,人工智能领域充满了机遇,并鼓励听众继续进行项目开发,并努力将他们的工作转化为现实世界的改变。

原文

大家好,非常感谢你们的邀请,我很高兴能来到这里。我非常喜欢黑客马拉松,这里充满了能量和创造力,年轻人们尝试做很酷的事情,一起学习和创造,这对我来说是最喜欢的地方。我参加过很多黑客马拉松,所以今天能在这里和你们交流真的很高兴。

首先,当他们邀请我时,我没想到这次活动规模会这么大,这确实超出了我的预期。这个黑客马拉松的规模确实很大。我想开始说的是,这对于 AI 来说并不寻常。我在 AI 领域已经有大约 15 年的经验,所以我可以自信地说,它已经发展了很多。对我来说,AI 以前只是几百个学者聚在一起开研讨会,讨论一些数学的细节。这是我进入 AI 领域时所习惯的。那时候,当你训练神经网络时,你会用 MNIST 数据集中的小数字,训练受限玻尔兹曼机,用对比散度来训练网络,然后仔细检查网络的第一层是否训练正确。我知道这听起来很久远且没什么意义,但那时候的氛围确实不同,现在情况变得有些失控了。但看到今天的能量,15 年后的今天,AI 发展成了现在这个样子,所以这也是我认为这次活动规模如此之大的原因。

Nvidia 是制造 GPU 的公司,这些 GPU 用于我们神经网络的所有繁重工作,现在是美国最有价值的公司,并且已经接管了市场。这就是我们今天所处的时代,为什么有这么多像这样的黑客马拉松,我认为这非常了不起,但确实是前所未有的。对于许多刚进入 AI 领域的人来说,这是一个非常独特的时刻,这并不寻常,非常有趣也非常独特,现在有很多事情在发生。我认为根本原因是计算的本质在发生变化,我们正进入一个新的计算范式,这是非常罕见的。我几乎觉得这像是 1980 年代的计算机时代重现,但这次不是中央处理单元执行字节指令,而是大型语言模型 (Large Language Model) 处理 Token(小字符串片段)。除此之外,我们有 Token 窗口而不是字节的内存,还有其他等价物。所以它有点像计算机,这就是为什么我称之为大型语言模型操作系统(LLM OS)。我曾在推特上更详细地讨论过这个。我认为这是一个新计算机,我们都在学习如何编程,了解它的优势和劣势,如何将其融入产品,以及如何充分利用它。

我想许多人可能看过两三周前 OpenAI 发布的 GPT-4o 演示,你开始真正感受到这是一种可以与你对话的东西,它用你的自然界面如音频回应你,它能看能听还能绘画和做许多事情。我想很多人可能看过《Her》这部电影,如果没有,我强烈建议你去看,它对我们今天来说非常有启发性。实际上在电影中,当主角与 AI 对话时,这个 AI 被称为操作系统 (Operating System),我认为这很有先见之明。这是一部美丽的电影,我鼓励你去看。现在问题是,这部电影中非常关注这些模型的情感智能方面,但在我们的社会中,这些模型实际上可能会解决大量的数字空间问题。所以这不仅仅是一个像人类一样的数字实体,它有点像人类,你可以和它对话,但它当然不是人类。可能会有很多这样的数字实体,我们可以给它们任务,它们可以互相交流合作,像虚拟 Slack 线程那样工作,自动化大量的数字基础设施,不仅是数字基础设施,可能还有物理基础设施。这还处于早期阶段,可能会稍微落后于很多数字创新,因为处理比特要比处理原子容易得多。

这是我非常喜欢的一部电影,名叫《我,机器人》(I, Robot),2004 年上映,主演是 Will Smith。这部电影探讨了一个未来,机器人在人类社会中执行许多任务,剧透警告:在电影中,情况不太顺利,机器人有点像接管了一样。但我认为思考这些问题很有趣,我也强烈建议你去看这部电影。这部电影设定在 2035 年,也就是 10 年后,或许在 10 年内,你可以设想我们可能会处于一个这些东西在我们周围行走、与我们交谈、在物理世界和数字世界中执行任务的地方。这是什么样子?这意味着什么?我们如何编程?如何确保它们按照我们的意愿行事?

综上所述,我认为人们经常谈论的一种感觉是通用人工智能 (AGI) 的感觉。你是否感受到 AGI?这意味着你直观地理解如果这些东西继续有效发展,可能带来的巨大变化。我们可能在数字和物理空间中实现的自动化量,我不知道你们怎么看,但我觉得这幅图有点暗淡。当我将过去几分钟的讲话输入图像生成器时,这就是生成的结果。我不喜欢这幅图,我认为我们可以做得更好。我们这里有几千人,你们即将进入这个行业,参与开发这些技术,并对其进行塑造,你们将拥有一些主动权。所以我不知道,也许我们希望它看起来像这样,这是我想要的。所以这是人类、动物和自然和谐共存的场景,但实际上这是一个高科技社会,有机器人和四轴飞行器,自动化很多,但它们隐藏起来了,不是显而易见的。所以也许这是我们想要的,你应该对自己想要的未来充满主导感,因为你们将会建设它。也许我们现在可以同意这比之前的图更好,我希望如此,因为我也将生活在这个未来中。

所以,这次黑客马拉松的问题是,过去一两天你们完成了很多很酷的项目,问题是我们如何从黑客到实际改变世界,建设这个未来,无论它对你们来说是什么样的。所以我在这次演讲中想做的是回顾我在行业中的大约 15 年,并谈谈项目如何变成现实世界的变化,我的一些收获和想法。

首先,我发现非常令人难以置信的是,有时很小的项目如何能像雪球一样滚成非常大的项目,这真是令人难以置信。举个例子,我参加了很多黑客马拉松,这些是我过去 15 年间的一些项目。我做了一个小的魔方颜色提取器,在 YouTube 上发布了一些游戏编程教程,大约 13 年前,尝试教人们游戏编程。我做了一些视频游戏,其中很多,我有一个有点粗糙的神经进化模拟器,这很有趣。不出所料,这些项目中的很多其实没有发展起来,很多只是探索和试验。这些项目没有真正走远,但我不认为这是浪费的工作,只是它们没有发展成大项目,但它们仍然在帮助我前进,稍后我会回到这一点。游戏编程教程实际上以某种方式发展起来了,因为它引导我从游戏编程教程到一些魔方视频,这些视频当时变得很受欢迎,这激发了我对教学的兴趣。当我在斯坦福大学攻读博士学位时,我教了一门名为 CS231n 的课程,并且开发和教授了它,这是斯坦福第一门大型深度学习课程,很多人对此非常感兴趣。之后,我又做了一个 YouTube 频道,这是我的深度学习从零到英雄系列,很多人也喜欢这个。继续滚雪球,目前我非常感兴趣的项目是下一门课程以及它可能的样子,我称之为 LLM 101n,关于构建一个故事讲述者,有点像你可以用来生成故事的 ChatGPT。这个想法是你从基础开始构建,从基本的前提到类似 ChatGPT 的故事生成器,从头开始构建,我认为这将非常具有教育意义,也非常有趣。我大约两三天前刚在 GitHub 上发布了这个项目,所以它还处于非常早期的阶段,但我非常兴奋。对我来说,这是一个雪球的例子,它从大约 13 年前的小游戏编程开始,我正在开发一个我认为会非常有趣的课程,谢谢。

另一个例子是我在 OpenAI 见证的雪球效应。正如简要提到的那样,我是 OpenAI 的创始成员和研究员,我大约 7 年前加入了 OpenAI,这是一些公开的照片,展示了我们在 Greg 的公寓里工作的情景,当时我们大约有 8 个人。OpenAI 成立的目的是成为谷歌的平衡力量,谷歌当时是一个拥有 700 亿自由现金流的大公司,几乎雇佣了半个 AI 研究行业。这是一个有趣的设定,可以说,我们只有 8 个人和一台笔记本电脑,这真的很有趣。非常类似于我的背景,在 OpenAI 内部,我探索了大量项目,我们招聘了一些非常优秀的人才,其中很多项目没有走得太远,但有些确实成功了。举个例子,在 OpenAI 的早期历史中,有人开发了一个 Reddit 聊天机器人。如果你走到他们的桌子旁,会想,一个 Reddit 聊天机器人是什么样子?我们试图与谷歌竞争,而你在开发一个 Reddit 聊天机器人,我们应该做更大的事情。所以很容易忽视这些小雪球项目,因为它们在开始时非常脆弱。这个 Reddit 聊天机器人看起来很幼稚,但实际上它是一个语言模型,训练数据来自 Reddit,但实际上你可以用任意数据训练语言模型,不仅仅是 Reddit。当 Transformer 出现时,它被转化为更有效的东西,然后领域从 Reddit 扩展到许多其他网页,突然之间你得到了 GPT-1、GPT-2、GPT-3 和 GPT-4。所以这个容易被忽视的 Reddit 聊天机器人实际上滚雪球变成了我们现在认为的计算范式的改变,你可以与之对话,真的很了不起。所以我见证了一些这样的雪球效应。今天 OpenAI 当然的市值可能接近 1000亿美元,非常了不起。对我来说,见证这些雪球效应真的很了不起。过去两天,你们中的很多人也在小项目上工作,这些小雪球项目,对我来说,真的很了不起的是,有些可能不会有结果,但有些可能会成功。你们应该继续推动你们的项目,也许它们会滚成一个非常大的雪球,看着这些真的很了不起。

接下来,我想简要谈谈马尔科姆·格拉德威尔(Malcolm Gladwell)提出的 10000 小时理论,我非常相信这一点,我认为成功在很大程度上来自于反复练习和大量的努力。你们应该非常愿意投入这些 10000 小时,只需简单地数数你们花了多少时间,不要过于担心你们在做什么,是否成功或失败。所有这些加起来,即使是那些我失败的项目,也增加了我的时间积累,发展我的专业知识,使我能够自信地承担这些项目并使其成功。一些例子,我几周前做了一个非常粗糙的网站,这是一个周末项目,名叫 awesomemovies.life,你可以访问它,我认为它仍然有效,但不完全确定。我不推荐你去那里,这是一个电影推荐引擎,因为那天星期六我在想看什么电影,然后我想我需要为自己建一个电影推荐引擎。所以我做了这个,有人回复我的推文说,哇,你在周末就把这个搞定了,太酷了。我当时反思了一下,因为对我来说,这并不那么了不起。原因是这个人没看到的是,这是我第 20 次做类似的网站。我知道所有的步骤,我需要一个 Linode,我需要一个 Flask 服务器,我会写一些 JavaScript、样式表、HTML,然后把它们组合起来。我需要抓取所有这些网页,提取 TF-IDF 向量,训练 SVM。这些都是我之前已经做过 20 次的事情,我有以前项目的代码片段,我只是重新组合我已有的东西。所以将所有东西重新组合成新形式并不需要太多工作,允许我在周末完成它,这并不疯狂。这只来自于专业知识,只来自于你做过 20 次这样的事情。

下一个例子是特斯拉自动驾驶。我大约 7、8 年前被雇佣领导特斯拉自动驾驶的计算机视觉团队。我加入团队后做的第一件事是基本上从头开始用 PyTorch 重写了计算机视觉深度学习网络训练代码库,在加入团队的最初几个月里,我从头开始编写了整个代码库,这成了现在的基础。对某些人来说,这在当时看起来很了不起,但对我来说却不是,因为我刚从博士学位毕业,花了 5 年时间做类似的事情,我知道需要什么。我需要我的训练集和评估集,我需要我的 PyTorch 训练循环,我需要配置文件和日志目录,我需要引入 ResNet,我需要进行检测、回归和分类。所以整个过程我都能预见到,这只来自于经验,只来自于你之前做过 20 次这样的事情。我认为这有很大不同,看起来令人印象深刻的事情,如果你已经做过 20 次,可能就没那么令人印象深刻了。所以真的要努力达到 10000 小时的积累,这非常重要。顺便说一下,10000 小时,如果你每天工作 6 小时,大约需要 5 年时间,差不多是一个博士学位的长度,来发展一个领域的专业知识。我认为这个时间估算大致正确。

另一件我发现非常有用的事情是保持多巴胺的流动,了解你的心理学、大脑如何运作、需要什么来保持动力和灵感。特别是,你的大脑是一个奖励机器,它需要奖励,你需要给它奖励。一个好的方式是做项目并发布它们。我过去做过一些项目,这些是黑客马拉松和随机项目,并不是所有项目都很好,但我喜欢的是,项目让你从头到尾地工作,深度学习。通常当你上课时,你是广泛学习很多东西,以备将来可能需要。而当你做项目时,你知道你需要什么,并且在需求中学习,只是为了让它工作。这是一种非常不同的学习模式,补充了广泛学习,非常重要,我百分百鼓励大家做项目。

另一个好处是发布项目,这也是一个很好的心理技巧。因为如果你要发布某个东西,你会考虑所有要看的人的反馈,你的朋友、团队成员、家人和未来的雇主等,这会提高你对自己工作的要求。你会更努力,因为他们会看,你会感到羞愧如果它不好,所以你会更加努力,尽力做到最好,这真的有帮助。最后,当其他人看你的项目时,你会得到回报,因为他们喜欢它,欣赏它,基于它做进一步的工作。这让你感觉很好。这一切结合起来,你获得了多巴胺,你感觉良好,这样你可以积累 10000 小时的经验,这有助于你从一个小雪球到一个大雪球,真正改变世界。

总之,我认为这就是高层次上的工作原理,信息就是继续黑客活动,就这样。希望这是我们一起滚雪球构建的未来,而不是我之前展示的第一幅图,谢谢大家。