本文是 Django 联合创始人 Simon Willison 所写，他主要回顾了2024 年，大语言模型 (LLMs) 领域经历了显著的发展和变革，以下是主要的趋势与关键事件：

GPT-4 壁垒被突破：多家机构开发的模型超越了 GPT-4 的性能，并推动了更长的上下文输入和多模态能力的发展。
LLM 成本大幅下降：由于竞争加剧和效率提升，运行和训练 LLM 的成本显著降低，同时对环境的影响也得到了部分缓解。
多模态 LLM 的崛起：支持图像、音频甚至视频输入的多模态模型变得普遍，语音和实时视频交互成为现实。
生成式 AI 应用的普及：基于提示生成应用程序的能力已经成为主流，许多模型支持即时创建和使用互动工具。
“代理人”尚未实现预期：尽管“代理人”概念被频繁提及，但由于模型的可信度和工具使用能力的限制，其实际应用仍未成熟。
评估的重要性提升：开发可靠的自动化评估工具成为构建 LLM 应用的关键技能。
环境影响的两面性：虽然单次推理的能耗降低，但数据中心的扩建对环境造成了更大压力。
知识分布不均：公众对 LLM 的认知与实际技术发展之间存在巨大差距，需要更多的教育和引导。

关键细节

GPT-4 壁垒的突破

性能超越：2024 年，18 个组织的模型在 Chatbot Arena 排行榜上超越了 GPT-4（如 Google 的 Gemini 1.5 Pro 和 Anthropic 的 Claude 3.5）。
上下文长度扩展：从 2023 年的 4,096 或 8,192 个 token 提升到 2024 年的 100,000+，Google 的 Gemini 系列甚至支持 200 万个 token。
多模态能力：Gemini 1.5 Pro 支持视频输入，推动了 LLM 应用的新场景。

成本下降与效率提升

价格对比：GPT-4 的运行成本从 $30/million token 降至 GPT-4o 的 $2.50/million token，Google Gemini 1.5 Flash 甚至低至 $0.0375/million token。
能耗优化：模型效率的提升使得单次推理的环境影响显著降低，例如 DeepSeek v3 的训练成本仅为 $5.6M。

多模态模型的普及

图像、音频与视频：从 OpenAI 的 GPT-4 Vision 到 Google 的 Gemini 系列，几乎所有主要厂商都推出了支持多模态输入的模型。
实时交互：ChatGPT 和 Gemini 支持实时语音和视频模式，如 OpenAI 的 WebRTC API 让开发语音交互应用变得简单。

应用生成的普及

提示驱动的工具：Claude 3.5 的 Artifacts 功能允许用户即时生成和使用互动应用，GitHub 和其他平台也推出了类似功能。
应用场景：从数据可视化到简单工具生成，这些功能显著降低了技术门槛。

“代理人”的局限

定义模糊：尽管“代理人”被广泛讨论，但其具体实现仍缺乏清晰的定义和有效的应用场景。
核心挑战：模型的易受欺骗性和缺乏事实验证能力限制了其作为自主决策工具的潜力。

环境影响的两面性

正面进展：推理效率的提升显著降低了单次操作的能耗，DeepSeek v3 的低成本训练证明了优化的可能性。
负面影响：数据中心的大规模扩建对环境和电力系统造成了巨大压力，类似 19 世纪铁路建设的“基础设施过剩”现象可能重演。

公众认知与教育

知识鸿沟：大部分公众对 LLM 的能力和局限性了解甚少，甚至许多技术爱好者尚未体验最新的实时交互功能。
教育需求：需要更多面向公众的指导，帮助用户正确理解和使用 LLM。

评估与批评

自动化评估的重要性：强大的评估工具能加速模型迭代并提升可靠性，但目前缺乏标准化方法。
批评的改进：需要更具建设性的批评，以帮助公众和决策者平衡 LLM 的优势与潜在风险。

原文

2024 年 12 月 31 日

在 2024 年，大语言模型 (LLM) 领域发生了许多变化。本文回顾了过去十二个月我们在该领域取得的进展，并尝试总结其中的关键主题和重要时刻。

本文是我 2023 年回顾的续篇。

本文内容包括：

GPT-4 的技术壁垒已被全面突破 #

在我 2023 年 12 月的回顾中，我提到当时我们仍然不清楚如何构建 GPT-4，OpenAI 的最佳模型已经发布近一年，但其他 AI 实验室仍未能开发出更优的模型。这不禁让我们思考：OpenAI 究竟掌握了什么我们不知道的秘密？

令人欣慰的是，在过去的十二个月里，这种情况已彻底改变。现在，有 18 个组织在聊天机器人竞技场排行榜上的模型排名高于 2023 年 3 月发布的原始 GPT-4 (排行榜上的 GPT-4-0314)，总计 70 个模型。

其中最早发布的是 谷歌的 Gemini 1.5 Pro，于 2 月发布。除了达到 GPT-4 的输出水平，它还为该领域引入了几项全新功能，最引人注目的是其 100 万 (后来增至 200 万) 令牌 (Token) 的输入上下文长度以及处理视频输入的能力。

我当时在 Gemini Pro 1.5 的杀手级应用是视频一文中记录了这些，这使得我在 5 月的 Google I/O 开幕主题演讲中短暂亮相。

Gemini 1.5 Pro 还体现了 2024 年的一个关键趋势：上下文长度的增加。去年，大多数模型接受 4,096 或 8,192 个令牌 (Token)，而 Claude 2.1 是一个显著的例外，它可以接受 200,000 个令牌 (Token)。如今，每个主要的服务提供商都拥有 10 万个令牌 (Token) 以上的模型，而谷歌的 Gemini 系列则可以接受高达 200 万个令牌 (Token)。

更长的输入显著扩展了 LLM 可解决的问题范围：用户现在可以输入整本书，并提问有关内容的问题。更重要的是，用户还可以输入大量代码示例，以帮助模型正确解决编程问题。与仅仅依赖于模型权重中已包含信息的简短提示相比，涉及长输入的 LLM 用例对我来说更有吸引力。我的许多工具都是基于这种模式构建的。

回到那些超越 GPT-4 的模型：Anthropic 的 Claude 3 系列于3 月发布，而 Claude 3 Opus 迅速成为我最喜爱的日常工具。他们在 6 月发布 Claude 3.5 Sonnet，进一步提高了标准。即使在六个月后的今天，它仍然是我最喜欢的模型 (尽管它在 10 月 22 日进行了一次重大升级，但版本号仍为 3.5，这让人感到困惑，Anthropic 的粉丝们后来将其称为 Claude 3.6)。

还有其他模型。如果你现在浏览聊天机器人竞技场排行榜，这仍然是评估模型 “感觉” 的最佳场所，你会发现 GPT-4-0314 已经跌至 70 名左右。拥有更高评分模型的 18 个组织分别是：谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、智谱 AI、xAI、AI21 Labs、普林斯顿和腾讯。

在 2023 年，训练出一个超越 GPT-4 的模型是一项重大成就。到了 2024 年，这已经算不上什么特别值得关注的成就了，尽管我个人仍然会为任何新加入这个行列的组织感到高兴。

部分 GPT-4 级别的模型已可在我的笔记本电脑上运行 #

我个人使用的笔记本电脑是 2023 年购买的 64GB M2 MacBook Pro。它性能强劲，但至今也已使用了近两年。关键是，自从我 2023 年 3 月首次在我的电脑上运行 LLM 以来，我一直使用同一台笔记本电脑 (参见大语言模型正在经历它们的 Stable Diffusion 时刻)。

这台去年 3 月还只能勉强运行 GPT-3 级别模型的笔记本电脑，现在已经可以运行多个 GPT-4 级别的模型了！以下是我的一些观察：

Qwen2.5-Coder-32B 是一款可以在我的 Mac 上运行，且具有良好代码编写能力的 LLM，这篇文章介绍了 11 月发布的 Qwen2.5-Coder-32B，这是一个采用 Apache 2.0 许可的模型。
我现在可以在我的笔记本电脑上运行 GPT-4 级别的模型，这篇文章介绍了如何运行 Meta 于 12 月发布的 Llama 3.3 70B 模型。

这仍然让我感到十分惊讶。我一直认为，具有 GPT-4 级别的能力和输出质量的模型需要配备一个或多个价值超过 40,000 美元的 GPU 的数据中心级服务器才能运行。

这些模型占用了我 64GB 内存的很大一部分，所以我不会经常运行它们，因为它们占用了太多其他程序的运行空间。

它们能够运行本身就证明了我们在过去一年中所取得的巨大训练和推理性能提升。事实证明，在模型效率方面仍有大量潜力可挖掘。我预计未来还会有更多提升。

Meta 的 Llama 3.2 模型值得特别提及。虽然它们可能不是 GPT-4 级别的，但 1B 和 3B 大小的模型却表现出 远超其规模 的性能。我使用免费的 MLC Chat iOS 应用在我的 iPhone 上运行 Llama 3.2 3B 模型。考虑到它微小的 (<2GB) 大小，其表现令人震惊。你可以尝试启动它，并要求它 “为 Netflix 圣诞电影提供一个情节大纲，讲述一位数据记者爱上了一位当地陶艺家的故事”。以下是我以每秒 20 个令牌 (Token) 的速度得到的结果：

这是完整的对话记录。虽然内容平淡无奇，但我的手机现在可以为 Netflix 构思平淡的圣诞电影了！

由于市场竞争和效率提升，LLM 的价格大幅下降 #

在过去十二个月中，通过顶级的托管 LLM 运行提示的成本大幅下降。

在 2023 年 12 月 (这是 OpenAI 定价页面的互联网存档)，OpenAI 对 GPT-4 收取每百万输入令牌 (Token) 30 美元，对当时新推出的 GPT-4 Turbo 收取每百万令牌 (Token) 10 美元，对 GPT-3.5 Turbo 收取每百万令牌 (Token) 1 美元。

如今，30 美元/百万令牌 (Token) 可以让你使用 OpenAI 最昂贵的模型 o1。GPT-4o 的价格为 2.50 美元 (比 GPT-4 便宜 12 倍)，而 GPT-4o mini 的价格为 0.15 美元/百万令牌 (Token)，比 GPT-3.5 便宜近 7 倍，且功能 强大得多。

其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku (3 月发布，但仍然是他们最便宜的模型) 的价格为 0.25 美元/百万令牌 (Token)。谷歌的 Gemini 1.5 Flash 的价格为 0.075 美元/百万令牌 (Token)，而 Gemini 1.5 Flash 8B 的价格为 0.0375 美元/百万令牌 (Token)，这比去年 GPT-3.5 Turbo 的价格便宜了 27 倍。

我一直在我的llm-pricing 标签下跟踪这些价格变化。

这些价格下降主要由两个因素驱动：即竞争加剧和效率提高。对于每一个关注 LLM 环境影响的人来说，效率的提升 至关重要。这些价格的降低直接关系到运行提示所消耗的能源量。

虽然我们仍需关注大规模 AI 数据中心建设对环境造成的潜在影响，但有关个人提示能源成本的许多担忧已不再有说服力。

下面是一个有趣的粗略计算：如果使用谷歌最便宜的 Gemini 1.5 Flash 8B 模型 (10 月发布) 为我个人照片库中的 68,000 张照片生成简短描述，需要花费多少钱？

每张照片大约需要 260 个输入令牌 (Token) 和 100 个输出令牌 (Token)。

260 * 68,000 = 17,680,000 个输入令牌 (Token)
17,680,000 * 0.0375 美元/百万 = 0.66 美元
100 * 68,000 = 6,800,000 个输出令牌 (Token)
6,800,000 * 0.15 美元/百万 = 1.02 美元

处理 68,000 张图像的总成本为 1.68 美元。这个数字太低了，我不得不计算三次以确保结果无误。

这些描述的效果如何？以下是我通过该命令得到的结果：

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

这是在加州科学院拍摄的蝴蝶照片：

这是一个浅盘，可能是蜂鸟或蝴蝶喂食器，颜色为红色。盘子里面可以看到切成片的橘子。
两只蝴蝶停在喂食器中，一只蝴蝶为深棕色/黑色，带有白色/奶油色的斑纹。另一只蝴蝶较大，为棕色，带有较浅的棕色、米色和黑色斑纹，包括明显的眼点。较大的棕色蝴蝶似乎正在吃水果。

260 个输入令牌 (Token)，92 个输出令牌 (Token)，成本约为 0.0024 美分 (不到 1/400 美分)。

效率的提升和价格的下降是我在 2024 年最看好的趋势。我希望以更低的能源成本使用 LLM 的强大功能，而这似乎正逐渐成为现实。

多模态视觉已普及，音频和视频处理崭露头角 #

我上面的蝴蝶示例展示了 2024 年的另一个重要趋势：多模态 LLM 的兴起。

一年前，最引人注目的例子是 GPT-4 Vision，它在 2023 年 11 月的 OpenAI DevDay 上发布。谷歌的多模态 Gemini 1.0 于 2023 年 12 月 7 日发布，这也使得它（勉强）赶上了 2023 年的末班车。

到了 2024 年，几乎所有重要的模型供应商都发布了多模态模型。我们看到了 Anthropic 于 3 月发布的 Claude 3 系列、4 月发布的 Gemini 1.5 Pro (支持图像、音频和视频)； 9 月发布了 Qwen2-VL、Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。我们于 10 月获得了 OpenAI 的音频输入和输出功能，11 月出现了 Hugging Face 的 SmolVLM，12 月则出现了 Amazon Nova 的图像和视频模型。

10 月，我升级了我的 LLM 命令行工具，使其可以通过附件支持多模态模型。它现在拥有各种不同视觉模型的插件。

我认为，那些抱怨 LLM 进步放缓的人常常忽略了这些多模态模型所取得的巨大进步。能够针对图像 (以及音频和视频) 运行提示，为这些模型的应用提供了令人兴奋的新途径。

语音和实时摄像头模式已成为现实 #

已经开始出现的音频和实时视频模式值得特别关注。

与 ChatGPT 交谈的功能最初于 2023 年 9 月推出，但这在很大程度上是一种假象：OpenAI 使用其卓越的 Whisper 语音转文本模型和一种新的文本转语音模型 (命名为 tts-1) 来实现与 ChatGPT 移动应用的对话，但实际的模型只能识别文本。

5 月 13 日，OpenAI 发布了 GPT-4o，其中包括一个全新语音模式的演示。在这个模式中，真正的多模态 GPT-4o (其中 “o” 代表 “全能”) 模型可以接收音频输入，并输出高度逼真的语音，而无需单独的 TTS 或 STT 模型。

但演示中的声音听起来与斯嘉丽·约翰逊非常相似，在斯嘉丽·约翰逊提出抗议后，演示中名为 “Skye” 的声音从未被应用到实际产品中。

在最初的演示之后，新语音模式的发布被延迟，这引起了很多困惑。我在“4o” 模式下的 ChatGPT 尚未运行新功能一文中对此进行了解释。

当 ChatGPT 高级语音模式最终真正推出时 (从 8 月到 9 月缓慢推出)，它令人惊叹。我一直在遛狗时广泛使用它，令人惊讶的是，语调的改善显著提升了对话的质量。我还通过尝试 OpenAI 音频 API 获得了许多乐趣。

更有趣的是，高级语音模式还可以模仿口音！以下是我告诉它 “我需要你假装成一只带有浓重俄罗斯口音的加州棕色鹈鹕，但只能用西班牙语和我说话” 后发生的事情：

OpenAI 并非唯一拥有多模态音频模型的团队。谷歌的 Gemini 也支持音频输入，并且谷歌 Gemini 应用现在也可以像 ChatGPT 一样进行语音交流。亚马逊还预先公布了Amazon Nova 的语音模式，该功能计划在 2025 年第一季度推出。

谷歌于 9 月发布的 NotebookLM 通过生成两个 “播客主持人” 之间关于你输入到该工具中的任何内容的逼真对话，将音频输出提升到了新的高度。他们随后添加了自定义指令，因此我自然而然地将他们变成了鹈鹕：

最近的变化再次发生在 12 月 (12 月非常热闹)，那就是实时视频功能。ChatGPT 语音模式现在可以选择与模型共享你的摄像头画面，并实时讨论你所看到的内容。谷歌 Gemini 也预览了相同的功能，并且他们设法在 ChatGPT 发布该功能的前一天发布了此功能。

这些功能仅推出几周，我认为它们的影响尚未完全显现。如果你还没有尝试过它们，那你真的应该试试。

Gemini 和 OpenAI 都为这些功能提供了 API 访问权限。OpenAI 最初使用一个非常难用的 WebSocket API，但在 12 月，他们发布了一个更容易上手的 WebRTC API。现在，构建一个用户可以通过语音与之交互的 Web 应用 非常容易！

提示驱动的应用生成已成为一种普遍商品 #

这个功能在 2023 年使用 GPT-4 时就已实现，但在 2024 年，它所提供的价值才变得显而易见。

我们早就知道 LLM 在编写代码方面非常出色。如果你给它们正确的提示，它们就可以使用 HTML、CSS 和 JavaScript (以及诸如 React 之类的工具，前提是你建立了一些额外的支持构建机制) 来构建 一个完整的交互式应用，通常只需一个提示即可完成。

当 Anthropic 发布 Claude Artifacts 时，他们将这个概念推向了新的高度。这是一个突破性的新功能，但由于它是在他们发布令人惊叹的 Claude 3.5 Sonnet 的公告中途被提及的，因此最初并没有引起太多的关注。

借助 Artifacts，Claude 可以按需为你编写一个交互式应用，然后 允许你直接在 Claude 界面中使用它。

这是我的提取 URL 应用，完全由 Claude 生成：

我发现自己经常使用这个应用。我在 10 月注意到我有多依赖它，并写了我本周使用 Claude Artifacts 构建的所有内容，描述了我在一周内组装的 14 个小工具。

此后，许多其他团队也构建了类似的系统。GitHub 于 10 月宣布了他们的版本——GitHub Spark。Mistral Chat 于 11 月添加了名为 Canvas 的功能。

来自 Val Town 的 Steve Krouse 针对 Cerebras 构建了一个版本，展示了一个每秒处理 2,000 个令牌 (Token) 的 LLM 如何迭代应用程序，并在不到一秒钟的时间内显示更改。

在 12 月，聊天机器人竞技场团队为此功能引入了一个全新的排行榜。用户使用两个不同的模型构建两次相同的交互式应用程序，并对答案进行投票。这个功能现在已经非常普遍，任何主流模型都能够高效地实现它，这很难不让人信服。

我自己也在尝试为我的 Datasette 项目构建一个类似的版本，目标是让用户使用提示来构建和迭代针对他们自身数据的自定义小部件和数据可视化。我还找到了一个类似的模式，通过 uv 实现了一次性 Python 程序的编写。

这种提示驱动的自定义界面功能非常强大且易于构建 (前提是你已经掌握了浏览器沙箱的复杂细节)，我预计它将在 2025 年成为各种产品的标配功能。

对顶尖模型的普遍访问仅持续了短短数月 #

今年有几个月，所有三个最强大的模型——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——对世界上大多数人都是免费的。

OpenAI 于 5 月向所有用户免费提供了 GPT-4o，而 Claude 3.5 Sonnet 自 6 月发布以来一直免费提供。这是一个重要的转变，因为在此之前，免费用户大多只能使用 GPT-3.5 级别的模型，这意味着新用户对一个强大的 LLM 究竟能做什么产生了非常不准确的认知。

随着 OpenAI 推出 ChatGPT Pro，这个时代似乎已经结束，并且可能一去不复返。这项每月 200 美元的订阅服务是访问他们最强大模型 o1 Pro 的唯一途径。

由于 o1 系列 (及其未来必然会激发的模型) 背后的核心思想是投入更多计算资源以获得更好的结果，因此我认为免费访问最先进模型的好日子可能不会再回来了。

AI 智能体仍未真正实现 #

我发现 “AI 智能体 (Agents)” 这个词非常令人沮丧。它缺乏一个明确、统一且被广泛理解的定义，但使用这个词的人似乎从未意识到这一点。

如果你告诉我你正在构建 “AI 智能体”，这几乎没有向我传达任何信息。除非我能读懂你的心思，否则我根本不知道你所指的是哪一种定义。

我观察到的主要类别有两种：有些人认为 AI 智能体显然是指那些代表用户执行操作的事物 (如旅行社模式)；另一些人则从 LLM 的角度来看待这个问题，他们认为 AI 智能体是那些有权访问工具，并可以循环运行这些工具来解决问题的 LLM。“自主性” 一词也经常被提及，但仍然缺乏清晰的定义。

(几个月前，我还在 Twitter 上收集了 211 个定义，这些定义在这里 Datasette Lite 中展示，并且我让 gemini-exp-1206 尝试对其进行总结。)

无论 “智能体” 这个词的含义如何，它仍然给人一种永远 “即将推出” 的感觉。

抛开术语不谈，我对它们的实用性仍然持怀疑态度，这再一次归咎于轻信的挑战。LLM 会相信你告诉它们的任何事情。任何试图代表用户做出有意义决定的系统都会遇到同样的障碍：如果一个旅行社、数字助理，甚至研究工具无法区分真假，那么它们的价值又体现在哪里呢？

就在前几天，谷歌搜索被发现提供了一个完全虚假的描述，描述了一部不存在的电影 “Encanto 2”。事实证明，它总结了来自粉丝小说 wiki 中虚构的电影列表。

提示注入是这种轻信的必然结果。在 2024 年，我在解决这个问题方面几乎没有看到任何进展，而我们从 2022 年 9 月就开始讨论这个问题了。

我开始认为，最流行的 “AI 智能体” 概念本身依赖于通用人工智能 (AGI)。一个可以抵御轻信的模型确实是一个非常高的目标。

评估至关重要 #

Anthropic 的 Amanda Askell (负责 Claude 性格背后的许多工作) 说：

好的系统提示背后乏味而至关重要的秘密是测试驱动开发。你不会先写下系统提示，然后再尝试找到测试它的方法。相反，你会先写下测试，然后再找到可以通过这些测试的系统提示。

在 2024 年，我们越来越清楚地认识到，为 LLM 驱动的系统编写良好的自动化评估是 最关键的技能，也是基于这些模型构建实用应用程序的必要条件。如果你拥有强大的评估套件，你就可以更快地采用新模型，更好地进行迭代，并构建比竞争对手更可靠、更有用的产品功能。

Vercel 的 Malte Ubl 说：

当 @v0 首次发布时，我们非常担心需要通过各种复杂的预处理和后处理步骤来保护提示。
我们最终完全放开了限制。没有评估、模型，特别是用户体验的提示，就像获得了一台没有使用手册的损坏的 ASML 机器一样。

我仍然在努力寻找适合我工作的最佳实践模式。每个人都知道评估的重要性，但在如何最好地实施评估方面仍然缺乏足够的指导。我正在我的 evals 标签下跟踪这一问题。我的骑自行车的 SVG 鹈鹕基准只是一个对真正评估套件的拙劣模仿。

苹果智能表现不佳，但苹果的 MLX 库非常出色 #

作为一名 Mac 用户，今年我对选择这个平台感到更加满意。

去年，我感觉自己缺乏一台带有 NVIDIA GPU 的 Linux/Windows 机器，这使得我在尝试新模型方面处于巨大劣势。

从理论上讲，由于 CPU 和 GPU 可以共享相同的内存，因此 64GB 的 Mac 应该非常适合运行模型。但在实践中，许多模型都是以模型权重和库的形式发布，这些模型会优先支持 NVIDIA 的 CUDA，而不是其他平台。

llama.cpp 生态系统在这里提供了很多帮助，但真正的突破是苹果的 MLX 库，一个 “用于 Apple Silicon 的数组框架”。它非常出色。

苹果的 mlx-lm Python 库支持在我的 Mac 上运行各种 MLX 兼容的模型，并具有出色的性能。Hugging Face 上的 mlx-community 提供了 1,000 多个已转换为必要格式的模型。

Prince Canuma 出色的、快速发展的 mlx-vlm 项目还将视觉 LLM 带到了 Apple Silicon。我最近使用它运行了 Qwen 的 QvQ。

虽然 MLX 改变了游戏规则，但苹果自己的 “苹果智能” 功能大多令人失望。我在 6 月份写了关于他们最初公告的文章，并且乐观地认为苹果已经专注于 LLM 应用的子集，这些应用可以保护用户隐私并最大限度地减少用户因令人困惑的功能而产生误解的风险。

现在，这些功能已经开始推出，但它们表现平平。作为一名 LLM 的高级用户，我很清楚这些模型的能力，而苹果的 LLM 功能只是对前沿 LLM 所能实现的苍白模仿。我们现在得到的只有错误地概括新闻标题的通知摘要，以及我根本找不到任何用处的写作辅助工具。不过，Genmoji 还挺有趣的。

推理扩展的 “推理” 模型兴起 #

2024 年最后一个季度最令人关注的进展是引入了一种新的 LLM 形式，OpenAI 的 o1 模型就是一个典型的例子，最初于 9 月 12 日发布了 o1-preview 和 o1-mini 版本。

理解这些模型的一种方法是将其视为思维链提示技巧的延伸，该技巧最初在 2022 年 5 月的论文 Large Language Models are Zero-Shot Reasoners 中提出。

如果你让模型详细阐述其正在解决的问题，通常你会获得模型在其他情况下无法实现的结果。

o1 将这个过程进一步融入了模型本身。其具体细节有些模糊：o1 模型会花费 “推理令牌 (Token)” 来思考问题，这些令牌 (Token) 对用户不可见 (尽管 ChatGPT UI 会显示这些令牌 (Token) 的摘要)，然后输出最终结果。

这里最大的创新在于，它开辟了一种新的模型扩展方式：模型现在可以通过在推理上投入更多计算资源来解决更困难的问题，而不是仅仅通过在训练阶段增加计算资源来提高模型性能。

o1 的续作 o3 (出于欧洲商标原因，他们跳过了 “o2”) 于 12 月 20 日发布，并在 ARC-AGI 基准测试中取得了令人瞩目的成绩，尽管这可能需要花费超过 1,000,000 美元的计算资源！

o3 预计将于 1 月份发布。我怀疑很少有人有现实问题可以从这种级别的计算支出中受益 (我肯定没有)，但这似乎是 LLM 架构在解决更复杂问题方面迈出的真正的下一步。

OpenAI 并非这个领域的唯一参与者。谷歌也发布了他们在该类别中的第一个模型 gemini-2.0-flash-thinking-exp，于 12 月 19 日发布。

阿里巴巴的 Qwen 团队于 11 月 28 日发布了 QwQ 模型，这是一个基于 Apache 2.0 许可的模型。我可以在自己的机器上运行它。他们随后于 12 月 24 日发布了一个名为 QvQ 的视觉推理模型，我也在本地运行了它。

DeepSeek 通过他们的聊天界面在 11 月 20 日提供了 DeepSeek-R1-Lite-Preview 模型的试用版。

要了解有关推理扩展的更多信息，我建议阅读 Arvind Narayanan 和 Sayash Kapoor 的文章 AI 的进展是否正在放缓？。

目前 Anthropic 或 Meta 尚未发布任何相关模型，但如果他们没有正在研发的推理扩展模型，我会感到非常惊讶。Meta 在 12 月发表了一篇相关论文 Training Large Language Models to Reason in a Continuous Latent Space。

目前最先进的 LLM 是否在中国以低于 600 万美元的成本训练而成？ #

虽然不完全正确，但基本属实！这确实是一个吸引眼球的绝佳标题。

今年年末的重大新闻是 DeepSeek v3 的发布，它于圣诞节当天在 Hugging Face 上发布，甚至没有 README 文件，然后在第二天发布了文档和论文。

DeepSeek v3 是一个拥有 685B 参数的庞大模型，是目前最大的开源许可模型之一，明显大于 Meta 的 Llama 系列中最大的模型 Llama 3.1 405B。

基准测试显示，它的性能与 Claude 3.5 Sonnet 相当。氛围基准测试 (也称为聊天机器人竞技场) 目前将其排在第七位，仅次于 Gemini 2.0 和 OpenAI 4o/o1 模型。这是迄今为止排名最高的开源许可模型。

DeepSeek v3 真正令人印象深刻之处在于其训练成本。该模型在 2,788,000 个 H800 GPU 小时内完成训练，估计成本为 5,576,000 美元。Llama 3.1 405B 训练使用了 30,840,000 个 GPU 小时，是 DeepSeek v3 的 11 倍，但基准测试显示它的性能略逊一筹。

这些关于向中国出口 GPU 的美国出口管制条例似乎激发了一些非常有效的训练优化！

环境影响有所改善 #

模型效率的提高 (包括托管模型和我可以在本地运行的模型) 带来了一个可喜的结果：在过去几年中，运行提示的能源消耗和环境影响已显著降低。

与 GPT-3 时代相比，OpenAI 自己对提示的收费降低了 100 倍。我有充分的理由相信，谷歌 Gemini 和亚马逊 Nova (两个最便宜的模型提供商) 都没有亏本运行提示。

我认为，这意味着作为个人用户，我们不必为绝大多数提示所消耗的能源感到任何内疚。与开车出行，甚至是观看 YouTube 视频相比，其环境影响几乎可以忽略不计。

同样，训练成本也有所下降。DeepSeek v3 的训练成本低于 600 万美元，这表明训练成本可以而且应该继续下降。

对于效率较低的模型，我发现将它们的能源消耗与商业航班进行比较是很有用的。最大的 Llama 3 模型的训练成本与从纽约到伦敦的单程满载客运航班的成本相近。这当然不是微不足道的，但一旦训练完成，该模型就可以被数百万人使用，而无需额外的训练成本。

环境影响显著恶化 #

这里更大的问题是，未来这些模型所需的巨大竞争性基础设施建设。

像谷歌、Meta、微软和亚马逊这样的公司都在花费数十亿美元建设新的数据中心，这对电网和环境产生了重大影响。甚至有关于建设新的核电站的讨论，但这可能需要数十年。

这种基础设施是必要的吗？DeepSeek v3 的 600 万美元训练成本以及 LLM 价格的持续下跌可能暗示情况并非如此。但如果你是一个大型科技公司的高管，并且主张不建设这种基础设施，但却在几年后被证明是错的，你会怎么办？

这里一个有趣的比较点是 19 世纪世界各地铁路的建设方式。建造这些铁路需要大量投资，并对环境产生了巨大影响。许多建成的线路最终被证明是不必要的，有时甚至有来自不同公司的多条线路为同一条路线服务！

由此产生的泡沫导致了几次金融危机，详细信息请参阅 Wikipedia 的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了许多有用的基础设施，以及大量的破产和环境破坏。

劣质内容之年 #

2024 年是 “劣质内容” 一词成为专业术语的一年。我在 5 月份写了一篇关于此事的文章，扩展了 @deepfates 的这条推文：

实时见证 “劣质内容 (slop)” 成为一个术语。“垃圾邮件 (spam)” 成为了不需要的电子邮件的代名词，“劣质内容 (slop)” 也即将进入字典，成为不需要的 AI 生成内容的代名词。

我将该定义稍微扩展为：

劣质内容 (Slop) 指的是 未经请求 且 未经审查 的 AI 生成内容。

我最终在《卫报》和《纽约时报》上被引用，谈论 “劣质内容 (slop)”。这是我在《纽约时报》上说的话：

社会需要简洁的方式来讨论现代 AI，包括它的积极和消极方面。“忽略那封电子邮件，那是垃圾邮件 (spam)”，以及 “忽略那篇文章，那是劣质内容 (slop)”，这些都是有用的警示。

我喜欢 “劣质内容 (slop)” 这个词，因为它简洁地概括了我们 不应该 使用生成式 AI 的方式之一！

“劣质内容 (slop)” 甚至入围了 2024 年牛津年度词汇的候选名单，但最终输给了 “脑腐 (brain rot)”。

合成训练数据效果显著 #

令人惊讶的是，“模型崩溃” 的想法似乎在公众意识中根深蒂固。这个概念最初在 2023 年 5 月的论文 The Curse of Recursion: Training on Generated Data Makes Models Forget 中提出，并在 2024 年 7 月的《自然》杂志上再次出现，标题更为引人注目：当使用递归生成的数据进行训练时，AI 模型会崩溃。

这个想法很诱人：随着互联网上充斥着 AI 生成的劣质内容 (slop)，模型本身将会退化，以一种导致它们不可避免地走向衰败的方式消耗自己的输出！

但这种情况显然没有发生。相反，我们看到 AI 实验室越来越多地使用 合成内容 进行训练，即有意识地创建人工数据，以帮助引导模型朝着正确的方向发展。

我看到的对此最好的描述之一来自 Phi-4 技术报告，其中包含以下内容：

合成数据作为预训练的重要组成部分正变得越来越普遍，并且 Phi 系列模型始终强调合成数据的重要性。合成数据并非只是有机数据的廉价替代品，它还具有优于有机数据的若干直接优势。
结构化和逐步学习。在有机数据集中，令牌 (Token) 之间的关系通常是复杂且间接的。模型需要执行多个推理步骤才能将当前令牌 (Token) 与下一个令牌 (Token) 连接起来，这使得模型难以从下一个令牌 (Token) 的预测中有效地学习。相比之下，语言模型生成的每个令牌 (Token) 都是根据定义由前面的令牌 (Token) 预测的，这使得模型更容易遵循由此产生的推理模式。

另一种常见的技术是使用更大的模型来帮助为其更小、更便宜的替代模型创建训练数据，越来越多的实验室开始采用这种技巧。DeepSeek v3 使用了 DeepSeek-R1 创建的 “推理” 数据。Meta 的 Llama 3.3 70B 模型在微调过程中使用了超过 2500 万个合成生成的示例。

对 LLM 中使用的训练数据进行精心设计似乎是创建这些模型的关键。仅仅抓取整个互联网并将数据随意地倾倒入训练过程中进行训练的日子早已一去不复返了。

LLM 的使用难度有增无减 #

我一直强调的一个问题是，LLM 是高级用户工具，它们是伪装成厨房刀具的链锯。它们看起来使用起来非常简单 (向聊天机器人输入信息能有多难？)，但实际上，你需要大量的理解和经验才能充分利用它们并避免它们的许多陷阱。

如果说有什么变化的话，这个问题在 2024 年变得更糟了。

我们构建了你可以用人类语言与之交互的计算机系统，它们可以回答你的问题，并且通常都会给出正确的答案！但这取决于问题是什么，你如何提问，以及问题是否准确地反映在未公开的秘密训练集中。

可用系统的数量呈爆炸式增长。不同的系统具有不同的工具，这些工具可以应用于你所遇到的问题，例如 Python、JavaScript、Web 搜索、图像生成，甚至数据库查询。所以，你最好了解这些工具是什么、它们的功能以及如何判断 LLM 是否使用了它们。

你知道 ChatGPT 现在有两种完全不同的方式来运行 Python 吗？

想要构建一个与外部 API 通信的 Claude Artifact 吗？你最好先了解 CSP 和 CORS HTTP 标头。

模型可能变得更强大了，但大多数限制仍然存在。OpenAI 的 o1 最终可能能够 (在大多数情况下) 数清草莓中的 “R”，但它的能力仍然受到其 LLM 本质以及其运行环境的限制。o1 无法进行 Web 搜索或使用 Code Interpreter，但 GPT-4o 可以在同一 ChatGPT UI 中执行这些操作。(如果你要求 o1 执行这些操作，它会假装这样做，这回到了 2023 年初出现的 URL 幻觉错误)。

我们对此做了什么？几乎没有。大多数用户都被直接扔进了深渊。默认的 LLM 聊天 UI 就像是把全新的计算机用户扔进 Linux 终端，并期望他们自行解决所有问题一样。

与此同时，终端用户越来越普遍地形成关于这些工具如何工作以及它们的功能的极度不准确的认知。我已经看到许多人试图使用 ChatGPT 的截图来赢得争论，但考虑到这些模型固有的不可靠性，以及如果你给出正确的提示，你就可以让它们说任何话的事实，这本身就是一个荒谬的举动。

另一方面，许多更了解情况的人已经完全放弃了 LLM，因为他们无法理解任何人如何能从这样一个有如此多缺陷的工具中获益。充分利用 LLM 的关键技能是学习如何使用既有内在不可靠性又同时具有强大功能的工具。这是一项极具挑战性的技能！

这一领域有 很大的潜力 来提供有用的教育内容，我们需要做得比将所有事情外包给那些在 Twitter 上发布夸张帖子的人要好得多。

知识分布极不均衡 #

现在大多数人都听说过 ChatGPT。有多少人听说过 Claude？

积极关注这些内容的人与 99% 不关注这些内容的人之间的知识差距 非常巨大。

变化的步伐也无济于事。就在上个月，我们看到了实时界面的普及，你可以将 手机的摄像头 对准某物，然后 用你的声音谈论它，并且可以选择让它假装是圣诞老人。就连大多数自称的 “极客” 都还没有尝试过这个功能。

鉴于这项技术对社会正在产生 (以及潜在) 的影响，我认为这种差距是不健康的。我希望看到更多努力来改善这一点。

LLM 需要更深入的批判性分析 #

很多人 非常讨厌 这些东西。在我经常出没的一些论坛 (如 Mastodon、Bluesky、Lobste.rs，甚至偶尔在 Hacker News 上)，仅仅暗示 “LLM 有用” 就足以引发一场激烈的争论。

我理解这种情绪。人们有很多理由不喜欢这项技术，包括环境影响、训练数据的 (缺乏) 伦理、可靠性问题、负面应用以及对人们工作的潜在影响。

LLM 绝对值得批评。我们需要讨论这些问题，找到缓解这些问题的方法，并帮助人们学习如何以负责任的方式使用这些工具，从而让积极的应用大于负面的影响。

我赞赏对这些东西持怀疑态度的人。两年来，炒作之声一直不绝于耳，并且存在大量的虚假宣传和错误信息。许多 非常糟糕的 决定都是基于这种炒作做出的。持批评态度是一种美德。

如果我们想让有决策权的人对如何应用这些工具做出 正确的决定，我们首先需要承认存在积极的应用，然后帮助他们了解如何在实践中避免许多不直观的陷阱。

(如果你仍然认为没有任何积极的应用，我不确定你为什么会读到这篇文章的这个地方！)

我认为，告诉人们整个领域是环境灾难性的剽窃机器，它们会不断地编造信息，这对那些人来说是不公平的，无论这在多大程度上是事实。这里确实存在真正的价值，但获得这种价值并非易事，需要加以指导。

我们这些理解这些工具的人有责任帮助其他人弄清楚它们是如何工作的。

我 2024 年博客中所有标记为 “llms” 的文章 #

考虑到我毫无疑问遗漏了很多内容，以下是我在 2024 年所有标记为 llms 的完整文章：

一月
- 7 日: 可以将其称为人工智能
- 9 日: 关于人工智能这个术语，我应该说些什么
- 17 日: 在 Oxide and Friends 上谈论开源 LLM
- 26 日: LLM 0.13：带注释的发行说明
二月
- 21 日: Gemini Pro 1.5 的杀手级应用是视频
三月
- 5 日: 提示注入和越狱并非一回事
- 8 日: GPT-4 的技术壁垒终于被打破
- 22 日: 使用 Claude 和 ChatGPT 执行临时任务
- 23 日: 使用 ChatGPT 代码解释器为 SQLite 构建和测试 C 扩展
- 26 日: llm cmd undo last git commit——LLM 的一个新插件
四月
五月
六月
- 6 日: 针对 RAG 应用的意外提示注入
- 10 日: 关于 WWDC 2024 主题演讲中关于 Apple Intelligence 的想法
- 17 日: 命令行上的语言模型
- 21 日: 使用 Claude、Datasette 和 Val Town 构建基于搜索的 RAG
- 27 日: 人工智能工程面临的开放性挑战
七月
- 14 日: 模仿智能：我在 2024 年 PyCon US 上的主题演讲
- 19 日: 每周笔记：GPT-4o mini、LLM 0.15、sqlite-utils 3.37 以及构建测试环境
八月
九月
十月
十一月
十二月

(此列表是使用 Django SQL Dashboard 生成的，其中包含一个由 Claude 为我编写的 SQL 查询。)

关键细节#

GPT-4 壁垒的突破#

成本下降与效率提升#

多模态模型的普及#

应用生成的普及#

“代理人”的局限#

环境影响的两面性#

公众认知与教育#

评估与批评#

原文#

GPT-4 的技术壁垒已被全面突破 ##

部分 GPT-4 级别的模型已可在我的笔记本电脑上运行 ##

由于市场竞争和效率提升，LLM 的价格大幅下降 ##

多模态视觉已普及，音频和视频处理崭露头角 ##

语音和实时摄像头模式已成为现实 ##

提示驱动的应用生成已成为一种普遍商品 ##

对顶尖模型的普遍访问仅持续了短短数月 ##

AI 智能体仍未真正实现 ##

评估至关重要 ##

苹果智能表现不佳，但苹果的 MLX 库非常出色 ##

推理扩展的 “推理” 模型兴起 ##

目前最先进的 LLM 是否在中国以低于 600 万美元的成本训练而成？ ##

环境影响有所改善 ##

环境影响显著恶化 ##

劣质内容之年 ##

合成训练数据效果显著 ##

LLM 的使用难度有增无减 ##

知识分布极不均衡 ##

LLM 需要更深入的批判性分析 ##

我 2024 年博客中所有标记为 “llms” 的文章 ##