【科普】大模型中常说的参数是指什么?
近年来,大型语言模型(Large Language Models,LLMs)以前所未有的速度发展,深刻地改变了人工智能的格局,并日益融入我们日常生活的方方面面。从智能助手到内容创作和代码生成,大语言模型展现出强大的能力。这些模型已经从科研实验室走向实际应用,成为各种技术产品中不可或缺的组成部分,其重要性和影响力正持续扩大。 当我们谈论大语言模型时,“大”这个字不仅仅指它们所学习的海量数据,更在于其内部庞大的变量,我们称之为“参数”。正是这些数量巨大的参数,赋予了模型理解和生成人类语言的能力。例如,DeepSeek 的模型拥有高达 6710 亿个参数,Qwen 的模型参数量也达到了 140 亿,而一些较小的模型则拥有约 5 亿个参数。这些数字上的巨大差异暗示着参数规模对模型的能力和资源需求有着显著的影响。 什么是“参数”? 要理解大语言模型中的“参数”,首先需要了解它们所基于的底层技术:深度学习和人工神经网络。人工神经网络是一种受人脑结构和功能启发的计算系统。人脑由数以亿计的神经元相互连接构成,而人工神经网络则是由大量相互连接的计算单元(通常称为节点或神经元)组成,这些节点被组织成多个层次,包括输入层、隐藏层和输出层。 在大语言模型的语境下,“参数”指的是神经网络内部的变量,这些变量在模型的训练过程中被调整,以学习数据中的关系。这些参数主要包括以下两种类型: 权重 (Weights): 权重是分配给不同层级节点之间连接的数值,它们表示该连接在影响模型输出时的强度或重要性。权重的大小决定了前一层神经元的输出对下一层神经元的影响程度,通过调整这些权重,模型能够学习到训练数据中的复杂模式。 偏置 (Biases): 偏置是添加到神经元加权输入总和中的常数值。偏置允许激活函数在输入为零时也能被激活,为模型的学习提供了额外的自由度,使其能够学习更复杂的函数关系。 模型的训练过程本质上是一个不断调整这些参数的过程。通过分析大量的训练数据,模型会逐步调整其内部的权重和偏置,以最小化预测结果与真实结果之间的差异 . 想象一下,这些参数就像一个复杂机器上的无数个微调旋钮 。通过对这些旋钮进行精确的调整,机器(模型)才能更好地完成其任务。参数的值在训练结束后就被固定下来,它们实际上编码了模型从数据中学到的“知识” 。因此,参数的数量越多,模型能够学习和存储的语言模式和复杂关系就越丰富。 这里借用一下 OpenAI 前创始人、特斯拉前 AI 总监 Andrej Karpathy 大模型科普视频中的一个例子:Meta 开源的 Lama2 70B模型,可以被精简地理解为电脑文件系统目录中的两个核心文件:一个参数文件以及一个运行代码文件。 在这个模型中,每个参数都采用16位浮点数(即2个字节)来存储,累计起来,这个参数文件的体积达到了140 GB。这一数字不仅反映了模型的复杂性,也预示着其强大的处理能力。 接下来是运行代码文件,这部分可能令人意外地简洁,大约 500 行的 C 语言代码便足以实现整个神经网络的结构。然后我们将代码文件进行编译,并链接上参数文件,那么就形成了一个完整的 Llama2 70B 大模型。 规模的重要性:理解模型大小中的“B” 当我们谈论像 Qwen-14B 或 DeepSeek-671B 这样的大型语言模型时,其中的“B”代表的是“Billions”,即十亿 。这个字母清晰地表明,这些模型的参数数量级已经达到了非常惊人的程度。例如,谷歌发布的 Gemma 模型拥有 70 亿参数,这个数量几乎等同于全球人口。通常来说,模型拥有的参数越多,其学习复杂模式的能力就越强,从而能够更好地理解和生成更复杂的文本,并在各种语言任务中表现出更高的性能 。 值得注意的是,随着模型参数数量的增加,有时会出现所谓的“涌现能力” 。这意味着当模型的规模超过某个阈值时,它可能会突然展现出一些在较小模型中从未出现过的能力,例如进行更高级的推理、理解更抽象的概念,甚至执行一些它在训练过程中没有被明确指示要完成的任务。然而,模型规模的扩大也带来了挑战,例如训练和运行这些模型需要巨大的计算资源,并且需要更多的数据来有效地训练,以避免过拟合 。过拟合指的是模型在训练数据上表现非常好,但在面对新的、未见过的数据时性能却显著下降。 DeepSeek 的 671B 参数 DeepSeek-V3 是由中国人工智能初创公司 DeepSeek 开发的先进大语言模型,其参数量高达 6710 亿。如此庞大的规模使得 DeepSeek-V3 在数学、编码和复杂推理等具有挑战性的任务上,能够达到与 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 等领先的专有模型相媲美的性能。...