知识蒸馏 | FisherAI

随着 DeepSeek R1 的爆火，知识蒸馏这一人工智能中常用的技术进入大众视野。本篇面向对人工智能和机器学习感兴趣的初学者的科普性文章，主题聚焦于当前深度学习领域中被广泛应用的「知识蒸馏（Knowledge Distillation）」技术，希望能帮助读者快速了解它的概念、作用以及应用场景。什么是知识蒸馏？在深度学习的发展过程中，模型的规模（参数量）越来越大，性能也随之提升。然而，大模型在带来卓越性能的同时，往往也伴随着体积庞大、推理速度较慢、对硬件资源要求较高等问题。为了让深度学习模型在更广泛的场景中应用，人们提出了多种模型压缩技术，而「知识蒸馏」就是其中的一种。知识蒸馏最早由 Hinton 等人在 2015 年提出（Hinton 被誉为AI 教父，同时获得了图灵奖和诺贝尔奖，也是 OpenAI 前首席科学家兼创始人 Ilya Sutskeve 的导师），其核心思想是：将一个性能很强但体积庞大的「教师模型（Teacher Model）」所学习到的“知识”提炼出来，再教给一个较小且更轻量的「学生模型（Student Model）」，使得学生模型既能保持较好的性能，又显著降低模型大小和推理成本。可以把知识蒸馏比作一位优秀教师将自己的知识精华传授给学生的过程。教师模型经过大量数据的训练，具备了很强的表达能力和预测精度，但它通常拥有成百上千亿的参数，体积庞大且计算消耗高。而学生模型则采用简化的网络结构，虽然参数较少，但通过“模仿”教师模型的行为，能够达到相近的效果，从而大幅降低计算资源的需求。传统的教学方式是直接告诉学徒“标准答案”（硬标签，Hard Label），例如，告诉他“这张图片是猫”、“这句话是肯定的”。但你作为经验丰富的老师，知道仅仅知道“答案”是不够的，更重要的是理解“为什么是这个答案”以及“其他可能的答案是什么”。知识蒸馏就像一种更高级的教学方式。它不仅仅传递“标准答案”，更重要的是传递老师模型在学习过程中获得的**“软标签 (Soft Label)”**，也就是模型对各种可能性的“思考”和“概率分布”。举个例子：假设我们训练了一个强大的图像识别模型（教师模型）来识别猫和狗。当给它一张猫的图片时，教师模型可能不会简单地输出“猫”这个答案，而是会给出这样的概率分布：猫： 95% 狗： 4% 其他动物： 1% 这个概率分布就包含了丰富的信息：高概率的“猫”：这是正确答案，表示模型高度确信这张图片是猫。较低概率的“狗”：表示模型也考虑过“狗”的可能性，但认为可能性较低。极低概率的“其他动物”：表示模型几乎排除了其他动物的可能性。这些概率分布，就是“软标签”。它比仅仅给出“猫”这个“硬标签”包含了更多的信息，体现了教师模型更深层次的理解和判断。简单来说，知识蒸馏的过程包括：训练教师模型：首先，我们训练一个强大的、性能优越的模型作为教师模型。这个模型通常体积较大、参数较多，能够学习到丰富的知识。生成软标签：教师模型不仅给出最终的分类结果，还能输出一个反映各类别概率分布的“软标签”。这些软标签揭示了类别之间的细微关系，比传统的硬标签（例如 0 与 1）包含更多信息。训练学生模型：利用相同的数据，同时使用教师模型输出的软标签和原始的硬标签，训练出一个结构轻巧但性能优秀的学生模型。模仿学习：学生模型通过模仿教师模型的“思考方式”（软标签），学习到教师模型更深层次的知识和泛化能力。知识蒸馏的原理软标签与温度参数在传统的分类任务中，模型输出经过 softmax 层后，会将每个类别的得分转化为概率。知识蒸馏中，通过引入一个温度参数 T 来调整 softmax 的输出分布。当温度 T 较高时，输出分布会变得更加平滑，弱化“自信”预测，使得学生模型能够捕捉到教师模型对各类别之间相似性的信息。这就好比老师在授课时适当放慢节奏，让学生更容易理解各知识点之间的联系。...