Andrej Karpathy

Andrej Karpathy：2025 LLM 年度回顾 - 5大关键范式转变与 Vibe Coding

本文翻译自 Andrej Karpathy 发布在 X 上的对于 2025 年 LLM 的年度回顾：2025 LLM Year in Review. 2025 年是 LLM（大型语言模型）取得长足进步且充满大事的一年。以下是一份我个人认为值得注意且略显意外的“范式转变”清单——这些事物改变了格局，并在概念上令我印象深刻。 1. 基于可验证奖励的强化学习 (RLVR) 在 2025 年初，各大实验室的 LLM 生产技术栈看起来大概是这样的：预训练 (Pretraining, 约 2020 年的 GPT-2/3) 监督微调 (Supervised Finetuning, 约 2022 年的 InstructGPT) 基于人类反馈的强化学习 (RLHF, 约 2022 年) 在很长一段时间里，这是训练生产级 LLM 的稳定且行之有效的配方。在 2025 年，基于可验证奖励的强化学习 (RLVR) 崛起，成为了这一组合中事实上的新增主要阶段。通过在多个环境（例如数学/代码谜题）中针对可自动验证的奖励来训练 LLM，LLM 自发地发展出了在人类看来像是“推理”的策略——它们学会了将解决问题的过程分解为中间计算步骤，并学会了多种反复推敲以弄清问题的解题策略（参见 DeepSeek R1 论文中的例子）。这些策略在以前的范式中很难实现，因为对于 LLM 来说，最佳的推理轨迹和纠错方式是什么并不明确——它必须通过针对奖励的优化，自己找到行之有效的方法。与 SFT 和 RLHF 阶段（这两个阶段相对较薄/较短，计算上只是微小的微调）不同，RLVR 涉及针对客观（不可被操纵）奖励函数的训练，这允许进行更长时间的优化。事实证明，运行 RLVR 提供了极高的能力/成本比，它吞噬了原本用于预训练的计算资源。因此，2025 年的大部分能力进步都是由 LLM 实验室消化这一新阶段的“剩余红利”所定义的，总体而言，我们看到了体量相似的 LLM，但 RL 运行时间要长得多。此外，这一新阶段独有的是，我们获得了一个全新的旋钮（以及相关的缩放定律），可以通过生成更长的推理轨迹和增加“思考时间”来控制作为测试时计算量函数的能力。OpenAI o1（2024 年末）是 RLVR 模型的首次演示，但 o3 的发布（2025 年初）是一个明显的拐点，你能直观地感受到这种差异。...

Andrej Karpathy 深度解析：为什么AI智能体是“十年之约”，而非“一年之功”？

本文来自于 Andrej Karpathy 的在 Dwarkesh Patel 上的播客访谈。在这次访谈中，Andrej 解释了为什么强化学习很糟糕 (但其他一切都更糟糕)，为什么 AGI 会融入过去约 2.5 个世纪的 2% GDP 增长中，为什么自动驾驶花了这么长时间才取得突破，以及他认为的未来教育是什么。 Andrej Karpathy 认为，我们正处于“智能体十年”（decade of agents）而非“智能体之年”（year of agents），因为当前的大语言模型（LLM）虽然取得了显著进展，但在实现真正可靠的智能体方面仍存在诸多认知缺陷，解决这些问题需要长期的努力。他将 AI 的发展视为计算和自动化趋势的延续，而非一个会颠覆经济增长率的突变事件，并强调了其中的历史曲折，例如早期对游戏环境强化学习的过度投入是一个“失误”。他认为，当前 AI 的核心挑战在于从海量、低质量的互联网数据中分离出真正的“认知核心”（cognitive core），即解决问题的算法和能力，而不是过度依赖记忆。他批评当前的强化学习（RL）方法效率低下，如同“通过吸管吸取监督信号”（sucking supervision through a straw），并且模型在利用自身生成的数据进行训练时，容易陷入“模型坍塌”（model collapse）的困境，丧失多样性。对于未来，他预测 AI 不会带来经济增长率的急剧爆炸，而是会延续现有的指数增长趋势。他最大的担忧是人类会逐渐失去对 AI 系统的理解和控制。因此，他目前致力于通过教育项目 Eureka 来赋能人类，旨在通过构建高效的“知识坡道”（ramps to knowledge），让前沿技术变得更容易理解和掌握，从而确保人类在 AI 时代保持核心地位。关键细节智能体的瓶颈：当前的智能体在持续学习（continual learning）、多模态（multimodality）能力和计算机操作等方面存在严重不足，使其无法像人类实习生一样可靠地完成工作。 AI 发展的三次浪潮：任务导向的神经网络：以 AlexNet 为代表，专注于图像分类等特定任务。早期的智能体探索：以 Atari 游戏和 OpenAI Universe 项目为代表，Karpathy 认为这是一个“失误”，因为它们脱离了真实世界的知识工作。大语言模型（LLM）：专注于通过大规模预训练构建强大的知识表示，这是当前智能体发展的基础。预训练与进化：Karpathy 将 LLM 的预训练比作“蹩脚的进化”（crappy evolution），认为它是一种在当前技术条件下，为模型注入初始知识和智能的实用方法，类似于生物进化为动物大脑内置了大量硬件和本能。强化学习（RL）的局限性：监督信号稀疏：RL 仅根据最终结果（奖励）来调整整个行为序列，这种方法噪声大且效率低下。 LLM 裁判的脆弱性：使用 LLM 作为奖励模型进行过程监督时，模型很容易找到对抗性样本（如无意义的 dhdhdhdh 字符串）来欺骗裁判，从而获得高分。认知核心 vs....

Andrej Karpathy：软件正在经历第三次根本性变革

前 OpenAI 创始人 & 特斯拉 AI 总监 Andrej Karpathy 在 YC 创业学校的这个演讲特别好，如果大家经常关注他的推特和 blog 会很熟悉里面的内容，这篇演讲整个篇幅的内容之前他都有提到过，比如他对大语言模型一以贯之的类比 “LLM 操作系统”，比如他认为当前的 GUI 是为人类设计的，后面要为 AI 而设计，再比如软件的开发范式正在进入 3.0 阶段，也就是 Vibe Coding，Vibe Coding 这个名词就是他首次提出的。软件正在经历第三次根本性变革继 Software 1.0 (传统代码) 和 Software 2.0 (神经网络权重) 之后，我们进入了 Software 3.0 时代。在这个新范式中，自然语言（如英语）本身成为了编程语言，用以驱动大型语言模型 (LLM)，极大地降低了软件开发的门槛。软件版本定义特点示例 Software 1.0 由人类编写的传统、明确的指令代码直接编写逻辑，传统编程范式 Python、C++ Software 2.0 神经网络的权重通过数据集训练"生成"程序，而非直接编写 Tesla Autopilot 神经网络取代 C++ 代码库 Software 3.0 通过自然语言提示（Prompts）编程 LLMs 自然语言成为编程语言，降低开发门槛任何会说自然语言的人都能成为程序员 LLMs 是新一代的操作系统 Karpathy 认为，将 LLMs 视为一种新的操作系统是最贴切的比喻。它们如同 1960 年代的早期计算机，计算资源昂贵且集中在云端，通过分时共享的方式提供服务。这个新“操作系统”拥有自己的生态，为重写现有软件和创造新应用带来了巨大机遇。...

赋能于民：大语言模型如何改写技术普及的剧本 • Andrej Karpathy

本文来自 Andrej Karpathy 在 X 上发布的一篇文章《Power to the people: How LLMs flip the script on technology diffusion 》。核心观点是，大型语言模型（ LLMs ）的技术扩散模式颠覆了传统技术自上而下（从政府/企业到个人）的传播路径。 LLMs 目前为普通个体带来了前所未有的、不成比例的巨大利益，其影响在企业和政府层面反而相对滞后。这是因为 LLMs 提供了广泛但相对浅显的能力，极大地赋能了缺乏多领域专业知识的个人；而组织机构在利用这种新技术时，则面临着整合复杂性、高风险以及内部惯性等挑战。尽管当前 LLMs 的普惠性是历史性的，但未来的技术发展和成本结构可能改变这种“利益分配”格局。传统技术扩散：历史上，变革性技术（如电力、计算机、互联网、 GPS ）通常遵循从政府/军事到企业再到个人的“自上而下”路径，因为早期技术稀缺、资本密集且需要专业知识。 LLMs 的独特路径： LLMs （以 ChatGPT 为例）显著逆转了该模式。 ChatGPT 成为史上增长最快的消费应用，拥有 4 亿周活跃用户，广泛用于写作、编码、翻译、学习、研究等个人任务。个体受益显著的原因： LLMs 大幅提升了个人在多个陌生领域的能力水平。使用门槛极低：成本低廉（甚至免费）、快速、易于通过网络或本地设备访问，并支持自然语言交流。企业/政府受益相对有限的原因：能力匹配度： LLMs 提供的是“准专家级”的广泛但浅显、可能出错的能力。而组织的核心优势在于整合深度专业知识。 LLMs 更多是提升现有专家的效率，而非带来颠覆性改变。复杂性与风险：组织运营涉及更高的复杂性（系统集成、遗留系统、安全、隐私、合规）和更低的容错率，难以简单应用 LLMs ，且“幻觉”等错误的代价高昂。组织惯性：企业文化、政治因素、沟通成本、培训挑战和官僚主义阻碍了对这种新型、多才多艺但尚不完全可靠工具的快速采纳。当前的普惠性：目前，普通人（ Mary , Jim , Joes ）比大型组织（如 Google 或美国政府）更能体验到 LLMs 带来的改变。前沿模型如 GPT 4o 对所有人（包括 Bill Gates ）都同样可及。未来展望与不确定性： LLMs 的持续影响取决于性能的提升。 “利益分配”格局可能改变。如果未来获取更强 AI 能力需要高昂成本（性能与资本支出挂钩），大型组织和富裕个体可能重新获得优势（例如，使用 GPT-8-pro-max-high 对比 GPT-6 mini ）。影响因素包括：扩大性能差距的技术（如规模扩展、模型集成）和缩小差距的技术（如模型蒸馏）。作者的感慨：当前的局面——强大的 AI （ ChatGPT ）几乎一夜之间免费普及到每个人的口袋里——是独特且出乎意料的，与许多科幻设想不同。引用并修正 William Gibson 的名言：“未来已来，且分布惊人地均匀”。作者对此表示赞赏（“权力归于人民”）。原文：赋能于民：大语言模型如何改写技术普及的剧本变革性技术通常遵循自上而下的扩散路径：它们往往起源于政府或军事部门，然后逐渐普及到企业，最终进入个人手中——比如电力、密码学、计算机、航空、互联网或 GPS。这种发展路径似乎是理所当然的，因为新兴的强大技术在早期通常比较稀缺，需要大量的资金投入，而且使用它们还需要专业的技能。...

我爱计算器 • Andrej Karpathy

本文来自 Andrej Karpathy 的 blog，我这里将其翻译为了中文。作者表达了对计算器的深深喜爱，尤其是作为一种技术产品和象征的意义。计算器不仅仅是一个简单的工具，它代表了一种极简、用户友好的技术哲学，与现代技术产品日益复杂、依赖性强、用户体验糟糕的趋势形成鲜明对比。作者认为，当前的技术产品越来越偏向于复杂的、依赖网络和用户数据的商业模式，损害了用户的隐私和自主权。作者呼吁消费者和开发者反思这种趋势，并以计算器为理想，推动技术回归简单、可靠和用户至上的方向。计算器的优点：计算器是一个自给自足的设备，不依赖外部网络或服务。它通过太阳能或电池供电，不需要复杂的设置或更新。计算器的功能简单直接，不收集用户数据，也不要求创建账户或登录。这种技术产品在过去、现在和未来都能稳定运行，完全属于用户自己。与现代技术的对比：现代技术产品通常依赖互联网、需要账户注册、权限管理，并且频繁更新。许多设备和应用程序通过数据收集、订阅模式等手段，逐渐侵蚀用户的隐私和控制权。作者提到 CO2 监测器等现代设备，要求用户提供精确位置信息、创建账户等，来说明现代技术的复杂性和用户不友好性。技术与资本主义的关系：作者认为，现代技术的复杂性与资本主义公司追求最大化股东价值的目标有关。通过数据收集、订阅服务等手段，公司可以在售卖产品的同时，持续从用户身上获利。这种趋势导致技术产品变得越来越依赖用户数据，侵害用户的隐私和自主权。对未来技术的期望：作者希望技术产品能够像计算器一样，简单、可靠、用户至上。他呼吁消费者通过抵制复杂、依赖性强的产品，来影响市场趋势。开发者则应在设计产品时，考虑到用户体验和自主权，避免过度优化商业利益。我爱计算器 2024年9月8日前几天，我随意逛书店时，偶然发现了一本书：《总和帝国：掌上计算器的崛起与统治》。翻阅它的过程中，我突然有了一个强烈的感悟：我真的……爱……计算器。这里的“计算器”并不是指你今天可以购买和使用的实体设备，而是一种技术的结晶，也是一种哲学的象征。请看：计算器是个奇妙的发明。通过手指操作，它仿佛成为你大脑的插件，扩展了你在算术方面的能力，让你思维更敏捷。而更神奇的是它的工作方式。计算器是一个完全独立的物理设备，它几乎不依赖外部技术环境。它只需要一点光（感谢它前面的太阳能板），或者电池，这些都很容易获得。你只需要花钱买它一次，它就永远属于你。只要按下“开机”键，它随时可以为你服务。如果你把这个小巧的设备带回几千年前，交给当时的人们，它也会正常工作，简直像是奇迹。让我们对比一下我们现在习以为常的技术。计算器不需要联网，也不需要蓝牙权限。它不会询问你的位置信息，也不需要你创建账户或登录。它不会频繁提示你更新软件版本。你不必升级到什么带有正弦、余弦功能的“高级计算器+”版本。它不会硬着头皮变成一个多功能平台，也不需要你的信用卡信息，更不会追踪你的使用数据。它不会随机弹出窗口要求你评分或反馈，也不会在暗网上泄露你的数据或自动订阅什么通讯邮件。更不会因为服务器宕机而无法使用。所有的计算都在设备上完成，完全私密、安全，不会被记录。计算器就是你大脑的算术工具。它过去能用，现在能用，未来也能用。你买了它，它就是你的。它没有其他的附加要求，它只做它该做的事——如此完美。相比之下，这款有上千好评的二氧化碳监测器却要求我必须创建账户、下载它的应用，并开启位置服务，才能告诉我房间内的二氧化碳含量。那么，为什么我们的技术正逐渐变得如此复杂、臃肿，对用户不友好，充满反模式？一个常见的类比是，在资本主义经济中，公司可以被看作是在法规限制下，最大化股东价值的优化问题。如今的这些现象，是不是公司为了实现目标而过度优化的结果？为什么要卖产品，当你可以通过租赁来持续获利，并且最大化信息控制权，收集并货币化所有客户数据？政府是否在应对这些不利于用户的行业行为、外部成本和垄断问题时已经落后？作为消费者和开发者，我们应当记住并深刻感受技术本来的样子。技术可以像计算器那样简单、纯粹。也许不是所有的产品和服务都能做到，但它可以作为一种理念，一种可以不断追求的理想。作为消费者，我们可以更加意识到这种趋势，并通过影响公司利润来抵制这种趋势。而作为开发者，我们可以为优化目标增加一个意识形态的约束项。只有这样，我们才有可能找到真正的全局最优解。这是一个资本主义经济中公司的数学模型，它可以被看作是解决一个二次规划优化问题。以下是一些我觉得有趣且有启发的相关内容： Internet of shit 没有工业的技术科技法官过度追求效率使一切变得更糟

Licklider 1960 • Andrej Karpathy

本文来自 Andrej Karpathy 的 blog，我这里将其翻译为了中文。在这之前先介绍一下文章标题里一个名字：Licklider，他的全名是 J. C. R. Licklider 是计算机科学和互联网发展的先驱，他的愿景和研究为现代交互式计算和全球计算机网络（即互联网）的诞生奠定了基础。他不仅在技术上有远见，预见了图形计算、时间共享系统、网络计算等概念，还通过资助和管理关键项目推动了这些技术的实现。他的工作直接影响了诸如 ARPANET（互联网的前身）、人机交互界面、以及人工智能的早期发展。早期生平与教育背景 Licklider 于 1915 年出生于美国密苏里州圣路易斯。他在华盛顿大学获得了物理、数学和心理学的学士学位，并在罗切斯特大学获得了心理学硕士和博士学位，专攻心理声学。职业生涯与学术贡献他早期在哈佛大学和麻省理工学院（MIT）任职，参与了 SAGE 项目（半自动地面环境），这是冷战时期的计算机辅助防空系统。在 MIT，他负责了人机交互的研究，并在 1960 年发表了具有里程碑意义的论文《人机共生》，预见了未来计算机与人类合作的方式。推动互联网的先驱 Licklider 是互联网概念的最早提出者之一，1962 年他在一系列备忘录中提出了 “Intergalactic Computer Network” 的设想，这一设想后来演变为 ARPANET。他在 ARPA（高级研究计划署）担任信息处理技术办公室（IPTO）主任期间，资助了多个关键项目，包括 MIT 的 Project MAC 和斯坦福大学的研究，这些项目推动了时间共享技术和网络计算的发展。人机共生与人工智能 Licklider 的研究重点是如何通过计算机增强人类智能，而不是完全取代人类。他提出的 “人机共生” 概念预见了计算机将承担繁琐的任务，从而帮助人类在科学和技术思维中做出更高层次的决策。他还对人工智能持谨慎态度，认为计算机虽然可以在未来某天主导思维过程，但在短期内，人类仍然会设定目标并进行评估。计算机网络与全球通信 Licklider 的愿景不仅限于个人计算机的交互式使用，他还预见了全球计算机网络的潜力。他的 1968 年论文《计算机作为通信设备》详细描述了计算机网络将如何支持跨地域的合作和交流，这一设想成为了现代互联网的基础。其他贡献 Licklider 还在心理声学领域做出了重要贡献，提出了 “双重音高感知理论”，并进行了有关双耳语音去遮蔽效应的研究。他是互动小说游戏公司 Infocom 的创始成员之一，推动了计算机游戏领域的发展。 Licklider 的远见卓识不仅影响了计算机科学的技术发展，还改变了人们对计算机在社会中的角色的理解。他的工作为现代计算机网络、人工智能和人机交互奠定了基础。本文摘要 Licklider 在其 1960 年的文章《Man-Computer Symbiosis》中，提出了计算机作为“智能增强”工具的概念。他认为，虽然完全自动化（即人工智能，AI）可能是未来的终极目标，但智能增强（IA）这一阶段将持续足够长的时间，值得深入思考和研究。Licklider 还预测了计算机在人类生活中扮演的角色，尤其是军事和日常任务中的应用。然而，许多当时的预测由于技术和数据的限制未能实现，今天的计算机技术发展方向与他预期的有所不同。智能增强与自动化的对比 Licklider 认为，计算机在未来会逐步从智能增强工具过渡到完全自动化。然而，尽管当时的研究对人工智能和广义人工智能（AGI）充满乐观，实际进展远未达到预期。今天，AI 领域的主流方法（如大语言模型，LLMs）在当时是不可想象的，因为当时的计算能力和数据规模都无法支持。...

Software 2.0 • Andrej Karpathy 2017

本文中 Andrej Karpathy 提出了一个革命性的观点：神经网络不仅仅是机器学习工具箱中的另一个工具，而是软件开发方式的根本性转变，即从传统的“Software 1.0”过渡到“Software 2.0”。Software 1.0 依赖于人类编写的明确指令，而 Software 2.0 则基于数据集和神经网络架构，通过训练来生成程序。Karpathy 认为这种转变不仅提高了软件性能，还改变了编程范式，使得数据集的管理和优化成为软件开发的核心。 ➡️ Software 1.0 vs. Software 2.0 Software 1.0: 由人类程序员使用编程语言（如 Python、C++）编写明确的指令，逐行代码确定程序行为。 Software 2.0: 使用神经网络的权重表示程序，由数据集和神经网络架构定义，训练过程将数据集“编译”成最终的神经网络。 ➡️ 转变实例视觉识别: 从工程化特征和机器学习模型（如 SVM）转变为使用大规模数据集和卷积神经网络（CNN）。语音识别和合成: 从预处理和传统模型（如高斯混合模型和隐马尔可夫模型）转变为完全依赖神经网络（如 WaveNet）。机器翻译: 从基于短语的统计技术转变为神经网络模型，特别是在多语言和弱监督环境中。游戏: 从手工编码的程序（如围棋程序）转变为神经网络模型（如 AlphaGo Zero）。数据库: 使用神经网络替代传统数据管理系统组件，提高速度和节省内存。 ➡️ Software 2.0 的优势计算同质性: 神经网络主要由矩阵乘法和 ReLU 组成，简化了实现和优化。易于硬件实现: 简单的指令集使得神经网络更容易在定制 ASIC 和神经形态芯片上实现。恒定运行时间和内存使用: 每次前向传递所需的 FLOPS 和内存使用量是恒定的。高度可移植: 矩阵乘法序列比传统二进制文件或脚本更容易在不同计算配置上运行。灵活性: 可以通过调整网络结构和重新训练来快速适应新的性能需求。模块融合: 可以通过反向传播优化相互交互的模块，提升整体性能。 ➡️ Software 2.0 的局限性可解释性差: 大型神经网络的工作原理难以理解。潜在的失败模式: 可能出现非直观和尴尬的错误，或“静默失败”，如训练数据中的偏见。对抗样本和攻击: 反映了这种技术堆栈的非直观特性。 ➡️ 编程范式的变化...

Andrej Karpahty 在 UC Berkeley AI Hackathon 2024 颁奖典礼上的主题演讲

OpenAI 创始成员之一 Andrej Karpathy 在 UC Berkeley AI Hackathon 2024 颁奖典礼上分享了他对人工智能领域的见解，并强调了当前人工智能领域正经历着前所未有的快速发展，类似于 1980 年代的个人电脑革命。他认为，大型语言模型 (LLMs) 正成为新的计算范式，类似于个人电脑中的中央处理器，并正在改变我们与技术互动的方式。Karpathy 还强调了项目和实践在人工智能领域取得成功的关键作用，并分享了他个人经历中的一些成功案例。 ➡️ 人工智能领域正在经历快速发展，大型语言模型 ( LLMs ) 正在成为新的计算范式，类似于个人电脑中的中央处理器。 ➡️ LLMs 将在未来改变我们与技术互动的方式，并可能在数字和物理世界中自动化许多任务。 ➡️ Karpathy 还强调了项目和实践在人工智能领域取得成功的关键作用，并分享了他个人经历中的一些成功案例，例如他早期在 YouTube 上发布的游戏编程教程，最终帮助他发展了教学事业。 ➡️ 他还强调了 “一万小时定律” 的重要性，并鼓励听众投入大量时间进行实践，以积累经验和专业知识。 ➡️ Karpathy 认为，项目可以帮助人们深入学习，并鼓励他们将项目发布到网络上，以提高工作质量并获得反馈。 ➡️ 他总结说，人工智能领域充满了机遇，并鼓励听众继续进行项目开发，并努力将他们的工作转化为现实世界的改变。原文大家好，非常感谢你们的邀请，我很高兴能来到这里。我非常喜欢黑客马拉松，这里充满了能量和创造力，年轻人们尝试做很酷的事情，一起学习和创造，这对我来说是最喜欢的地方。我参加过很多黑客马拉松，所以今天能在这里和你们交流真的很高兴。首先，当他们邀请我时，我没想到这次活动规模会这么大，这确实超出了我的预期。这个黑客马拉松的规模确实很大。我想开始说的是，这对于 AI 来说并不寻常。我在 AI 领域已经有大约 15 年的经验，所以我可以自信地说，它已经发展了很多。对我来说，AI 以前只是几百个学者聚在一起开研讨会，讨论一些数学的细节。这是我进入 AI 领域时所习惯的。那时候，当你训练神经网络时，你会用 MNIST 数据集中的小数字，训练受限玻尔兹曼机，用对比散度来训练网络，然后仔细检查网络的第一层是否训练正确。我知道这听起来很久远且没什么意义，但那时候的氛围确实不同，现在情况变得有些失控了。但看到今天的能量，15 年后的今天，AI 发展成了现在这个样子，所以这也是我认为这次活动规模如此之大的原因。 Nvidia 是制造 GPU 的公司，这些 GPU 用于我们神经网络的所有繁重工作，现在是美国最有价值的公司，并且已经接管了市场。这就是我们今天所处的时代，为什么有这么多像这样的黑客马拉松，我认为这非常了不起，但确实是前所未有的。对于许多刚进入 AI 领域的人来说，这是一个非常独特的时刻，这并不寻常，非常有趣也非常独特，现在有很多事情在发生。我认为根本原因是计算的本质在发生变化，我们正进入一个新的计算范式，这是非常罕见的。我几乎觉得这像是 1980 年代的计算机时代重现，但这次不是中央处理单元执行字节指令，而是大型语言模型 (Large Language Model) 处理 Token（小字符串片段）。除此之外，我们有 Token 窗口而不是字节的内存，还有其他等价物。所以它有点像计算机，这就是为什么我称之为大型语言模型操作系统(LLM OS)。我曾在推特上更详细地讨论过这个。我认为这是一个新计算机，我们都在学习如何编程，了解它的优势和劣势，如何将其融入产品，以及如何充分利用它。...

Andrej Karpathy 在 AI Ascent 2024 上演讲的核心内容

本文来自 Andrej Karpathy 在红杉组织的 AI Ascent 2024 上的演讲视频，我用 Claude3 opus 提取了 Karpathy 提到的核心观点。核心观点目前各家公司都在努力构建一个 “LLM OS”，包括获取外围设备（文本、图像、音频等）作为输入，用LLM作为CPU，并连接到现有的软件基础设施上。未来可能会出现一些默认应用（如 Windows 系统自带的 Edge 浏览器），但也会有一个生机勃勃的生态系统。目前 LLM 生态系统包括完全开源的模型(如Pythia、LLaMA等)、只开放权重的模型和专有模型。未来可能会类似于操作系统生态（如 Windows系统、Mac系统、Linux操作系统，而Linux 有无数的分发版本）。规模化训练这些模型非常困难，是一个非常复杂的分布式优化问题。实际上，目前这方面的人才相当稀缺。模型规模是最重要的，但还需要很多其他细节，如数据集准备、算法优化等。单纯给钱和算力还训练不出 SOTA（“State of the Art"的缩写，意为"最先进"或"最高水平）模型，还需要很多专业知识。扩散模型和自回归语言模型是概率建模的两种形式，可能存在将二者统一的空间。目前模型能效还比人脑低几个数量级，未来可能的改进方向包括针对性的计算架构、低精度训练、稀疏性等。马斯克管理公司的特点包括保持团队小而精干、办公室氛围紧张忙碌、鼓励无用会议早退、与基层工程师直接沟通、果断消除瓶颈等。 Karpathy 更关心 AI 生态系统的健康发展，而非某家公司。他希望生态像珊瑚礁一样丰富多彩，对巨头垄断持谨慎态度。字幕详情 1 00:00:03,190 --> 00:00:06,535 我很高兴介绍我们的下一个也是最后一个演讲者, Andrej Karpathy. 2 00:00:06,894 --> 00:00:08,737 Karpathy可能不需要介绍. 3 00:00:08,797 --> 00:00:11,941 我们大多数人可能在YouTube上长时间观看过他的视频. 4 00:00:12,901 --> 00:00:17,588 他以深度学习研究闻名. 5 00:00:17,667 --> 00:00:22,452 他设计了斯坦福大学的第一个深度学习课程, 是OpenAI创始团队的一员. 6 00:00:23,454 --> 00:00:28,795 领导了特斯拉的计算机视觉团队, 现在又成为一个神秘人物, 因为他刚刚离开了OpenAI....