BosonAI 联合创始人、亚马逊前首席科学家，人工智能框架 MXNet 的作者之一：李沐，今年8月份在母校上海交大做了一场演讲，主要分享了他对大语言模型（LLM）的技术现状、未来趋势的预测以及个人职业生涯的感悟。因为他的创业方向是为客户做定制的LLM，他应该是我们熟知的大牛中离LLM最近的人之一，包括数据准备/清晰、预训练、后训练、LLM部署、机房建设、提供 serving、GPU/带宽/电力瓶颈等等。所以，他的演讲会给出很多有关LLM的一线认知，这里我摘出了其中他提到的一些核心认知。

核心认知

语言模型可以分为三块：算力、数据和算法。所以语言模型也好，整个机器学习模型也好，本质上就是把数据通过算力和算法压进中间那个模型里面，使得模型有一定的能力，在面对一个新的数据时，它能够在原数据里面找到相似的东西，然后做一定的修改，输出你要的东西。

这一次（浪潮里）的语言模型和上一次深度学习（浪潮里）的模型有一个比较大的区别 —— 上一次是，我炼一个什么丹就治一个什么病，这次我希望这个东西炼出来会有灵魂在里面，它能解决你很多问题，这其实是技术一代代往前进。

硬件

带宽：让芯片靠得更近一些

因为就现在的模型训练而言，很难让一个机器搞定所有事情，所以要做分布式训练，通常瓶颈就在带宽上。
我们现在的带宽是一根光纤承载 400Gigabits，下一代就是 double，变成 800Gigabits。
英伟达的 GB200 这个卡就可以把 GPU 都放一起，那么它们之间的通讯会变得更好一些。你可以理解成：之前我们做多核，把单核封装到一个芯片里面，现在是说多核不够，我要做多卡，多卡以前是分布在一个房间里面，现在是多卡也要尽量放在一起，这是一个趋势。就是一块芯片那么大，早就做不上去了，这是台积电等面临的工艺难题，现在是尽量把这些东西弄得近一些。
还有一个通讯是 GPU 和 CPU 之间的 PCIe，它每几年也在翻倍，但是确实会慢一些。

内存：制约模型尺寸的一大瓶颈

现在的语言模型，核心是把整个世界的数据压进模型里面，那模型就被搞得很大，几百 GB 的样子。在运行的时候，它的中间变量也很大，所以它就需要很多的内存。现在我们可以做到一个芯片里面封装近 192 GB 的内存。下一代带宽会更高一点。
很有可能在未来几年之内，一个芯片就 200GB 内存，可能就走不动了。这个要看工艺有没有突破。
内存大小会是模型上限的一个制约，而不是算力。内存不够，模型就做不大。在这一块，虽然英伟达是领先者，但其实英伟达是不如 AMD 的，甚至不如 Google 的 TPU。

算力：长期来看会越来越便宜

机器学习好的一点是，你可以用 4 位浮点数，硬件会变小，它对带宽的利用率也会变低，因为每次计算它只有那么多浮点数在里面。所以我们最近几代优化都来自浮点数的精度的降低。这是它给硬件带来的好处。
当你把模型做得更大的时候，你会发现资源是问题，就是供电。
最大的一个芯片要耗一千瓦，一千块芯片就是一兆瓦，整个校园都未必能用上一兆瓦的电。
关于算力价格。从理论上来说，在公平的市场里面，每次算力翻倍，价格会保持不变。但因为英伟达垄断的原因，短期内算力翻倍，价格可能会有1.4倍的提升。长期来看算力会变得越来越便宜。
算力这块，你可以用别的芯片，但是这些芯片用来做推理还 OK，做训练的话还要等几年的样子，英伟达还是处在一个垄断的地位。
今天训练一个模型，一年之后它的价值会减半。很多时候，大家不要去想我现在能搞多大的模型，一年之后，这个模型会贬值。我想说，大模型不是特别有性价比的东西。你要想清楚，从长期来看，你的模型能带来什么价值，让你能够保值。

模型

我觉得语言模型已经达到了较高的水平，大约在 80 到 85 分之间。
音频模型在可接受的水平，处于能用阶段，大约在 70-80 分之间。
但在视频生成方面，尤其是生成具有特定功能的视频尚显不足，整体水平大约在 50 分左右。

语言模型：100B 到 500B 参数会是主流

每次预训练，无论是 OpenAI 还是别的模型，基本都是用 10T 到 50T token 做预训练。开源的话基本也在 10T token 以上。这个数据量我觉得差不多了，不会再往一个更大的尺寸去发展。原因是，人类历史上的数据比这个多是多，但是看多样性、质量的话，我觉得 10T 到 50T 这个规模就差不多了。
我觉得比较好的一线的模型就是 500B，超过 500B 不是训练不动，而是做 serving 很难。在谷歌历史上，他们就没有让 500B 以上的模型上过线。OpenAI 没有对外说，但我觉得 OpenAI 历史上没有上线过有效大小超过 500B 的模型。当然 MoE 不算，我是说换算成稠密模型的话

语音模型：延迟更低、信息更丰富

GPT-4o 出来之后，大家对于语音模型产生了浓厚的兴趣。端到端的方案有两个优点: 1. 信息更丰富；2. 延迟更短，大概300毫秒。传统方案大约1秒（ASR->llm->TTS）
还有一点就是说，它能够通过语言模型对整个输出做很多控制。可以让你用文本定制化一个什么样的声音出来。

音乐模型：不是技术问题，而是商业问题

它的技术其实比语音麻烦一点，因为音乐比人说话更复杂一点。
实际上它还是一个版权的问题。现在大家开始慢慢解决版权的问题 —— 大公司去买版权，小公司想反正我光脚不怕穿鞋的，我就上。

图像模型：生成的图越来越有神韵

图片应该是整个 AIGC 领域做得最早的，也是效果最好的。
现在大家可以做到 100 万以上像素的图片的生成。
大家说得最多的是图片要有灵魂。之前你去看那些文生图的工具，它的风格还是很假，但现在你会看到跟真的很接近，当然它还缺那么一点点灵魂，不过这一块说不定很快就有了。

视频模型：尚属早期

实际上还算比较早期，通用的 video 生成还是非常贵，因为 video 数据特别难弄。
视频模型的训练成本很有可能低于数据处理的成本，所以你没有看到市面上有特别好的开源模型出来。
问题在于生成一张图片容易，但生成一连串连贯的图片，并保持一致性是很难的。

多模态模型：整合不同模态信息

这样做有两大好处：一是可以借助强大的文本模型进行泛化。另一个优点是可以通过文本来定制和控制其他模态的输出，比如用简单的文本指令控制图片、视频和声音的生成，而不再需要专业的编程技能或工具。

killer app

所谓的 killer APP 就是说一个技术的出现，可能会涌现出一个非常受欢迎的应用形态。
大家知道手机的 killer APP 是什么吗？短视频。
上一波的顶级 AI 公司基本上快死得差不多了，包括 Character.AI、Inflection 被卖了，Adept 也被卖了，还剩一个 Perplexity 搜索还在支撑着。但是下一代 killer APP 是什么大家不知道。可能等技术变成熟，大家的不习惯慢慢地过去了，这个东西会涌现出来。

应用：AI 离变革世界还有很多年

在应用层面，AI 本质上是去辅助人类完成任务，给人类提供无限的人力资源。我将应用分成三类：

文科白领：白领是用自然语言去跟人、跟世界打交道，包括写文章或者其他。我认为在这方面做的比较好的领域包括个人助理、Call centers、文本处理、游戏和舆论以及教育。一个文科白领可能一小时完成的事情，我们的模型还是能够完成百分之八九十的。
工科白领：AI 在编程等领域的应用仍有很大提升空间，短期内难以取代人类。
蓝领工作：除了自动驾驶和特定场景（比如工厂，场景变化不大，也能采集大量数据）外，AI 连简单任务都做不了，完成复杂任务更难。。AI 理解蓝领的世界，包括和这个世界互动可能需要至少 5 年时间。

但是放眼整个世界，蓝领是最主要的成员，因此技术对这个世界做出巨大的变革还需要很多年。未来 10 年、 20 年，大家还是有机会参与进来的。

创业与职业生涯的感悟

预训练与后训练：李沐认为预训练已经从技术问题转变为工程问题，而后训练才是技术创新的关键。
垂直模型与通用知识：即使是垂直领域的模型，也需要具备一定的通用能力。就是说没有真正的垂直模型，就算是一个很垂直领域的模型，它的通用能力也是不能差的。比如说你要在某一个学科里面拿第一，你别的科目也不能差到哪里去。
评估很难，但很重要：评估模型效果的难度在于实际应用场景的复杂性，好的评估方法能够显著提升模型的优化效率。有一个好的评估可以解决 50% 的问题。因为一旦评估解决了，那你就能够进行优化。
数据决定模型上限：数据决定了模型的上限，算法决定了模型的下限。就目前来说，我们离 AGI 还很远， AGI 能够做自主的学习，我们目前的模型就是填鸭式状态。目前看来 Claude 3.5 做的还不错，一个相对来说不那么大的模型，能在各种榜单上优于 GPT-4 ，并且在使用上确实还不错。他们花了很大的力气来做数据，在数据上用了很多年。所以，想让模型在某一个方面做得特别好，需要先把相关数据准备好。大家还是用了 70-80% 时间在数据上。
算力: 就是买 GPU，自建机房不会比租 GPU 便宜太多，原因是大头被英伟达吃掉了，英伟达的利润是 90%。一块卡是 3, 000 美金的成本，他卖你 3 万块钱。但自建的好处是能节省 CPU 的算力，以及你的存储和网络带宽。这些方面，自建就很便宜，但云就会很贵，因为这块在过去十年没有太大技术变革。比如说我用 AWS，存一年的数据成本等价于我把存这个东西的硬件买回来，而且能够容量变 10 倍。当你数据量增长很大的时候，自建是有意义的。
如果你去看语言模型，它就是一个机器学习模型，换了一个架构，只是更大了，带来很多困难，但它本质上还是可以用传统的机器学习那一套去理解的。它还是吃数据，评估还是很重要，所以很多之前的经验还是能用过来的。
在预训练方面，我觉得现在已经变成一个因为大而导致很多工程问题的困难，这其实还是算法上探索不够，得清楚如何改进算法。

个人提升与未来展望

从最基本的目标来说，去大公司，是为了升职加薪；读 PhD ，你要保证自己能毕业；而创业的目标是要能推出产品，要么上市，要么卖掉，这是每天都需要思考的。

在大公司，你要解决问题。大家一定要想清楚：我要在公司干什么，公司今年准备干什么，最好两者保持一致。如果干的事情是自己喜欢的，但不是公司追求的，这就会让人很难受。
创业公司面临很多问题，用户会付钱吗？投资人会付钱吗？要是都没人付钱就糟糕了。
成立创业公司的动机就要更高一点，不然你熬不下来。
持续自我提升：李沐建议通过定期总结和反思来持续提升自我，选择比努力更重要，但前提是明确目标。
时代机遇与挑战：当前是技术快速发展的时代，虽然机会多，但需要付出更多努力才能抓住这些机会。