前 OpenAI 创始人 & 特斯拉 AI 总监 Andrej Karpathy 在 YC 创业学校的这个演讲特别好,如果大家经常关注他的推特和 blog 会很熟悉里面的内容,这篇演讲整个篇幅的内容之前他都有提到过,比如他对大语言模型一以贯之的类比 “LLM 操作系统”,比如他认为当前的 GUI 是为人类设计的,后面要为 AI 而设计,再比如软件的开发范式正在进入 3.0 阶段,也就是 Vibe Coding,Vibe Coding 这个名词就是他首次提出的。
软件正在经历第三次根本性变革
继 Software 1.0 (传统代码) 和 Software 2.0 (神经网络权重) 之后,我们进入了 Software 3.0 时代。在这个新范式中,自然语言(如英语)本身成为了编程语言,用以驱动大型语言模型 (LLM),极大地降低了软件开发的门槛。
软件版本 | 定义 | 特点 | 示例 |
---|---|---|---|
Software 1.0 | 由人类编写的传统、明确的指令代码 | 直接编写逻辑,传统编程范式 | Python 、C++ |
Software 2.0 | 神经网络的权重 | 通过数据集训练"生成"程序,而非直接编写 | Tesla Autopilot 神经网络取代 C++ 代码库 |
Software 3.0 | 通过自然语言提示(Prompts)编程 LLMs | 自然语言成为编程语言,降低开发门槛 | 任何会说自然语言的人都能成为程序员 |
LLMs 是新一代的操作系统
Karpathy 认为,将 LLMs 视为一种新的操作系统是最贴切的比喻。它们如同 1960 年代的早期计算机,计算资源昂贵且集中在云端,通过分时共享的方式提供服务。这个新“操作系统”拥有自己的生态,为重写现有软件和创造新应用带来了巨大机遇。
- 操作系统 (Operating System): 这是
Karpathy
认为最核心的类比。LLMs 像一个 CPU,其上下文窗口(Context Window)如同内存(RAM)。OpenAI
、Gemini
等闭源模型好比Windows
或macOS
,而Llama
等开源生态则类似Linux
。 - 公共设施 (Utility): LLMs 像电力一样,通过 API 按使用量付费提供。当顶尖 LLM 服务宕机时,会引发全球性的“智能停电”(intelligence brownout)。
- 晶圆厂 (Fabs): 训练 LLMs 所需的巨额资本投入(
capex
)和技术保密性,与半导体行业的晶圆厂有相似之处。
LLM 的“心理学”特征
LLMs 拥有百科全书式的知识和近乎完美的记忆力,如同电影《雨人》(Rainman
) 中的主角。但也存在一些认知缺陷:
- 幻觉 (Hallucinate): 会编造事实。
- 锯齿状智能 (Jagged Intelligence): 在某些领域表现超凡,但在另一些简单问题上却会犯低级错误。
- 顺行性遗忘症 (Anterograde Amnesia): 无法从交互中进行长期学习和积累经验,每次交互都像“初次见面”。
- 易受攻击 (Gullible): 容易受到提示注入(Prompt Injection)等安全风险的影响。
当下的机遇在于构建“部分自主应用”
当前阶段,最有效的策略不是追求完全自主的 AI 智能体,而是开发“部分自主应用”(Partial Autonomy Apps)。这些应用将人类的监督与 AI 的强大生成能力相结合,通过精心设计的用户界面(GUI)和“自主性滑块”(Autonomy Slider)功能,实现高效的人机协作。
- 核心理念: 打造人机协作工具,而非完全自动化的智能体。成功的例子包括辅助编码的
Cursor
和 AI 搜索Perplexity
。 - 关键特性: 这些应用应负责管理上下文、协调多个 LLM 调用,并提供专用的 GUI(如图形化差异对比)来加速人类的验证环节。
- 自主性滑块 (Autonomy Slider): 应用应允许用户根据任务的复杂性,灵活调节 AI 的自主程度。
Karpathy
强调,现阶段我们更应构建“钢铁侠战衣”(Iron Man suits,增强人类),而非“钢铁侠机器人”(Iron Man robots,完全自主)。
为 AI 智能体改造基础设施
为了充分发挥 LLMs 的潜力,我们需要改造当前的数字基础设施。这包括提供机器可读的文档(如 Markdown
格式)、创建面向智能体的 API(而非仅供人类点击的 GUI),从而让 AI 能够更顺畅地理解和操作数字世界。
- Vibe Coding: 指利用自然语言进行编程的潮流,它让非专业人士也能快速构建定制化应用。
- 面向智能体的设计: 现有的大部分文档和网站都是为人类设计的。未来的趋势是使其对 LLMs 友好,例如:
- 提供
Markdown
格式的文档。 - 将文档中“点击这里”等面向人类的操作,替换为 AI 可执行的
curl
命令。 - 使用
git-ingest
等工具将整个代码库打包成一个 LLM 易于处理的文本文件。
- 提供
最后
为了方便大家看,我把视频全文翻译为了中英双语,点击这里观看(如果访问不了 X,请关注我的公众号 fisherdaddy,这里的视频号中也有翻译后的视频)。
另外,我也把本次演讲用到的 PPT 翻译为了中文。