本文介绍了如何高效地对 Llama 3.1 模型进行监督微调,特别是使用 Unsloth 库进行 8B 模型的微调。文章强调,Llama 3.1 的发布缩小了闭源和开源模型之间的性能差距,微调该模型可以实现更好的性能和定制化,且成本更低。作者提供了监督微调的全面概述,比较了与提示工程的不同,并详细介绍了主要技术及其优缺点。
监督微调(SFT)概述:
- SFT 是一种改善和定制预训练 LLM 的方法,通过在较小的数据集上重新训练基础模型,使其能够更好地执行指令和回答问题。
- SFT 可以提高模型的整体性能,增加新知识,或适应特定任务和领域。
SFT 技术:
- 全微调:对预训练模型的所有参数进行重新训练,效果最佳但需要大量计算资源。
- LoRA(低秩适应):只训练小的适配器,减少内存使用和训练时间,非破坏性。
- QLoRA:LoRA 的扩展,提供更高的内存节省,适合 GPU 内存受限的情况,但训练时间更长。
微调 Llama 3.1 8B 的过程:
- 使用 Unsloth 库进行高效微调,支持单 GPU 设置,提供更快的训练速度和更低的内存使用。
- 训练使用了 mlabonne/FineTome-100k 数据集,经过处理后应用 ChatML 模板。
训练参数和过程:
- 训练使用 A100 GPU,耗时约 4 小时 45 分钟,建议在资源有限的情况下加载数据集的子集以加快训练。
- 主要超参数包括学习率、批量大小、训练轮数等,使用 AdamW 8-bit 优化器。
模型评估与保存:
- 训练完成后,通过简单的提示测试模型性能,并使用 Unsloth 提供的保存方法将训练好的模型上传到 Hugging Face Hub。
- 文章还提到量化模型的不同格式以便于在推理引擎中使用。
后续步骤建议:
- 评估模型性能,进行偏好对齐,量化以提高推理速度,或在 Hugging Face Space 部署模型。
使用 Unsloth 超高效微调 Llama 3.1
前沿监督微调的入门指南
Llama 3.1 的发布带来了极高的性能表现,缩小了开源模型与闭源模型的差距。相比直接使用冻结的通用大语言模型 (LLM),例如 GPT-4o 和 Claude 3.5,您可以选择微调 Llama 3.1,针对特定场景进行优化,从而在成本较低的情况下实现更好的性能和定制化。
本文将系统介绍监督微调 (Supervised Fine-Tuning, SFT) 的相关知识,探讨其与提示工程 (prompt engineering) 的对比,说明在何种场景下更适合使用微调。同时,我们将详细介绍主要技术的优缺点,并引入一些核心概念,如 LoRA 超参数、存储格式和聊天模板。最后,我们将在 Google Colab 上实际操作,利用 Unsloth 对 Llama 3.1 8B 进行微调,并采用当前最先进的优化方法。
本文所有代码都可以在 Google Colab 和 LLM Course 找到。特别感谢 Daniel Han 对我问题的解答。
🔧 监督微调
监督微调 (SFT) 是一种提升和定制预训练大语言模型的方法。它通过在较小的数据集上进行再训练,将基础模型转化为能够执行指令和回答问题的智能助手。同时,SFT 还能提升模型整体性能、增加新知识或适应特定任务和领域。微调后的模型还可以通过偏好对齐进一步优化(详细内容参见 我的 DPO 文章),以移除不必要的回复或调整风格。
下图展示了一个典型指令示例,包括一个用于引导模型的系统提示、一个提供任务的用户提示,以及模型预期生成的输出。高质量的开源指令数据集可以在 💾 LLM Datasets GitHub 仓库中找到。
在考虑 SFT 之前,建议优先尝试少样本提示或检索增强生成 (retrieval augmented generation, RAG) 等提示工程技术。在实践中,这些方法通常能有效解决大多数问题,无需微调,适用于闭源或开源权重的模型 (如 Llama 3.1 Instruct)。如果提示工程在质量、成本或延迟等方面不能满足需求,且有可用的指令数据,那么 SFT 是一种可行的选择。SFT 还能提供额外的控制和定制化,有助于打造个性化的大语言模型。
但 SFT 也有局限性。它在利用基础模型已有知识时效果最好,而学习全新信息(如一种未知语言)会更加困难,容易导致幻觉现象。如果是基础模型尚未知晓的新领域,建议先在原始数据集上进行持续预训练。
另外,已经经过微调的指令模型 (instruct model) 通常已经接近您的需求。例如,一个模型可能在性能上表现良好,但会表明它由 OpenAI 或 Meta 训练而非您。在这种情况下,您可以通过偏好对齐稍微调整其行为。通过提供 100 到 1000 个指令样本的选择和拒绝案例,可以让 LLM 声称是由您训练,而非 OpenAI。
⚖️ SFT 技术
最受欢迎的三种 SFT 技术是全量微调、LoRA 和 QLoRA。
全量微调 是最直接的 SFT 技术。它通过在指令数据集上重新训练预训练模型的所有参数,通常能带来最佳效果,但需要大量计算资源 (对 8B 模型进行微调需要多块高端 GPU)。由于修改了整个模型,全量微调也容易导致模型遗忘之前的技能和知识。
低秩适应 (Low-Rank Adaptation, LoRA) 是一种常用的参数高效微调技术。它并不重新训练整个模型,而是在每个目标层引入小型适配器 (低秩矩阵) 并冻结原始权重。这样 LoRA 只需训练不到 1% 的参数,大大减少了内存使用和训练时间。由于原始参数被冻结,LoRA 是非破坏性的,适配器可以灵活切换或组合。
量化感知低秩适应 (Quantization-aware Low-Rank Adaptation, QLoRA) 是 LoRA 的扩展版本,进一步提高了内存利用率。与标准 LoRA 相比,它最多可额外节省 33% 的内存,适合在 GPU 内存紧张的情况下使用。尽管 QLoRA 的训练时间比常规 LoRA 长 39%,但其显著的内存节省使其在资源有限时成为理想选择。因此,我们将在下一节中使用 QLoRA,在 Google Colab 上微调 Llama 3.1 8B 模型。
🦙 微调 Llama 3.1 8B
为了高效地微调 Llama 3.1 8B 模型,我们将使用由 Daniel 和 Michael Han 开发的 Unsloth 库。得益于其定制内核,Unsloth 提供了 2 倍的训练速度和 60% 的内存使用率,是在 Colab 这样的受限环境中理想的选择。目前 Unsloth 仅支持单 GPU 设置。对于多 GPU 配置,建议使用 TRL 和 Axolotl 等流行方案(它们也使用 Unsloth 作为后端)。
在此示例中,我们将使用 QLoRA 在 mlabonne/FineTome-100k 数据集上微调。该数据集是 arcee-ai/The-Tome 的一个子集(不包括 arcee-ai/qwen2-72b-magpie-en),经过我使用 HuggingFaceFW/fineweb-edu-classifier 重新筛选。虽然该分类器并非专门用于指令数据质量评估,但可以作为粗略参考。最终得到的 FineTome 是一个高质量数据集,涵盖对话、推理、函数调用等多种任务。
让我们先安装所有必要的库。
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps "xformers<0.0.27" "trl<0.9.0" peft accelerate bitsandbytes
安装完成后,我们按如下方式导入这些库。
import torch
from trl import SFTTrainer
from datasets import load_dataset
from transformers import TrainingArguments, TextStreamer
from unsloth.chat_templates import get_chat_template
from unsloth import FastLanguageModel, is_bfloat16_supported
现在让我们加载模型。由于我们打算使用 QLoRA,因此选择了预量化的 unsloth/Meta-Llama-3.1-8B-bnb-4bit。这个 4 位精度版本的 meta-llama/Meta-Llama-3.1-8B 模型比原始的 16 位精度模型 (16 GB) 要小得多 (5.4 GB),因此下载速度更快。我们使用 bitsandbytes 库以 NF4 格式加载模型。
在加载模型时,需要指定一个最大序列长度参数,它决定了模型的上下文窗口大小。Llama 3.1 支持最多 128k 的上下文长度,但在这个例子中我们将其设置为 2,048,因为更长的上下文会增加计算和显存的消耗。最后,dtype
参数可以自动检测你的 GPU 是否支持 BF16 格式,这种格式能在训练中提高稳定性 (仅限于 Ampere 或更新的 GPU)。
max_seq_length = 2048
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/Meta-Llama-3.1-8B-bnb-4bit",
max_seq_length=max_seq_length,
load_in_4bit=True,
dtype=None,
)
现在模型已加载为 4 位精度,我们将配置 LoRA 适配器以实现参数高效微调。LoRA 的三个关键参数如下:
- Rank (r):决定 LoRA 矩阵的大小。Rank 通常从 8 开始,但可以达到 256。更高的 Rank 可以容纳更多信息,但同时也增加了 LoRA 的计算和内存开销。这里我们将其设置为 16。
- Alpha (α):更新时的缩放因子。Alpha 直接影响适配器的作用,通常设为 Rank 值的 1 倍或 2 倍。
- 目标模块:LoRA 可应用于模型的多个组件,包括注意力机制 (Q、K、V 矩阵)、输出投影、前馈块和线性输出层。虽然最初主要针对注意力机制,但将 LoRA 扩展到其他模块也显示出潜力。不过,适配更多模块会增加可训练参数和内存需求。
在这里,我们将 r=16、α=16,并目标指向所有线性模块以确保高质量输出。我们不使用 dropout 和偏置项以提高训练速度。
此外,我们还将采用 Rank-Stabilized LoRA (rsLoRA),它将 LoRA 适配器的缩放因子设为 1/√r,这比传统的 1/r 更有利于稳定学习 (尤其是对于更高 Rank 的适配器),从而提升微调效果。Unsloth 通过梯度检查点管理,将输入和输出嵌入转移到磁盘以节省显存。
model = FastLanguageModel.get_peft_model(
model,
r=16,
lora_alpha=16,
lora_dropout=0,
target_modules=["q_proj", "k_proj", "v_proj", "up_proj", "down_proj", "o_proj", "gate_proj"],
use_rslora=True,
use_gradient_checkpointing="unsloth"
)
通过这种 LoRA 配置,我们只训练了 8 亿个参数中的 42 百万个 (占比 0.5196%)。这表明,与全量微调相比,LoRA 高效得多。
现在我们加载并准备数据集。指令数据集通常以一种特定格式存储,例如 Alpaca、ShareGPT 或 OpenAI 格式。首先,我们需要解析这些格式以提取指令和答案。我们的 mlabonne/FineTome-100k 数据集采用了 ShareGPT 格式,其中包含一个 JSONL 格式的“conversations”列记录对话内容。与简单的 Alpaca 格式不同,ShareGPT 更适合存储多轮对话,这更接近用户与大语言模型的交互方式。
解析出指令-回答对后,我们会重新格式化它们以匹配一种聊天模板。聊天模板是一种结构化用户与模型对话的方式,通常包含标识消息起止点及说话者身份的特殊 Token。基础模型并没有内置聊天模板,因此我们可以根据需要选择 ChatML、Llama3 或 Mistral 等。在开源社区中,ChatML 模板 (最初由 OpenAI 推出) 是一个广泛使用的选项。它只需添加两个特殊 Token (<|im_start|>
和 <|im_end|>
) 来标识对话的发言者。
如果我们将这个模板应用到之前的指令示例,结果如下:
<|im_start|>system
You are a helpful assistant, who always provide explanation. Think like you are answering to a five year old.<|im_end|>
<|im_start|>user
Remove the spaces from the following sentence: It prevents users to suspect that there are some hidden products installed on theirs device.
<|im_end|>
<|im_start|>assistant
Itpreventsuserstosuspectthattherearesomehiddenproductsinstalledontheirsdevice.<|im_end|>
在接下来的代码块中,我们通过 mapping
参数解析 ShareGPT 数据集并包含 ChatML 模板。然后,我们加载并处理整个数据集,将聊天模板应用到每个对话中。
tokenizer = get_chat_template(
tokenizer,
mapping={"role": "from", "content": "value", "user": "human", "assistant": "gpt"},
chat_template="chatml",
)
def apply_template(examples):
messages = examples["conversations"]
text = [tokenizer.apply_chat_template(message, tokenize=False, add_generation_prompt=False) for message in messages]
return {"text": text}
dataset = load_dataset("mlabonne/FineTome-100k", split="train")
dataset = dataset.map(apply_template, batched=True)
现在我们可以开始配置训练参数。我将简要介绍一些关键超参数:
- 学习率:它决定了模型更新参数的力度。如果学习率太低,训练进展会很慢,且可能卡在局部最优解;而如果学习率过高,训练可能变得不稳定甚至发散,从而降低模型性能。
- 学习率调度器:它会在训练过程中动态调整学习率,通常在初期使用较高学习率以快速进展,随后逐步降低。线性和余弦调度是最常见的两种方案。
- 批次大小:每次权重更新前处理的样本数量。更大的批次通常能带来更稳定的梯度估计并提高训练速度,但也需要更多内存。通过梯度累积,可以在多个前向/后向传递中累积梯度,以达到更大的有效批次大小。
- 训练轮数:模型遍历整个训练集的次数。更多的训练轮数可以让模型更充分地学习数据,可能带来更好的性能。然而,训练轮数过多可能会导致过拟合。
- 优化器:用于调整模型参数以最小化损失函数的算法。通常建议使用 8 位的 AdamW:它在内存占用更少的情况下与 32 位版本表现相当。AdamW 的分页版本仅在分布式训练环境中有意义。
- 权重衰减:一种正则化技术,它在损失函数中添加大权重的惩罚,从而防止过拟合,帮助模型学习更简单、更具泛化能力的特征。但权重衰减过大可能抑制模型学习。
- 预热步数:在训练初期,学习率从较低值逐步增加到初始设定值的过程。预热有助于稳定早期训练,尤其是在使用较大学习率或批次时,通过让模型在进行大幅度更新之前逐步适应数据分布。
- 数据打包:批次中有预定义的序列长度。我们可以将多个较小的样本打包成一个批次,以提高效率。
我在 Google Colab 上使用 A100 GPU (40 GB 显存) 训练了整个数据集 (100k 样本)。训练耗时 4 小时 45 分钟。当然,你也可以使用显存较小的 GPU 和较小的批次大小,但速度会慢得多。例如,在 L4 上大约需要 19 小时 40 分钟,而在免费的 T4 上则需要长达 47 小时。
在这种情况下,我建议只加载数据集的一部分以加快训练。你可以通过调整前面代码块实现,比如 dataset = load_dataset("mlabonne/FineTome-100k", split="train[:10000]")
只加载 10k 样本。或者,你可以选择更便宜的云 GPU 提供商,如 Paperspace、RunPod 或 Lambda Labs。
trainer=SFTTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=dataset,
dataset_text_field="text",
max_seq_length=max_seq_length,
dataset_num_proc=2,
packing=True,
args=TrainingArguments(
learning_rate=3e-4,
lr_scheduler_type="linear",
per_device_train_batch_size=8,
gradient_accumulation_steps=2,
num_train_epochs=1,
fp16=not is_bfloat16_supported(),
bf16=is_bfloat16_supported(),
logging_steps=1,
optim="adamw_8bit",
weight_decay=0.01,
warmup_steps=10,
output_dir="output",
seed=0,
),
)
trainer.train()
模型训练完成后,让我们通过一个简单的提示进行测试。这虽然不是严格的评估,但可以快速检查潜在问题。我们使用 FastLanguageModel.for_inference()
来实现 2 倍速的推理。
model = FastLanguageModel.for_inference(model)
messages = [
{"from": "human", "value": "Is 9.11 larger than 9.9?"},
]
inputs = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
).to("cuda")
text_streamer = TextStreamer(tokenizer)
_ = model.generate(input_ids=inputs, streamer=text_streamer, max_new_tokens=128, use_cache=True)
模型的输出是 "9.9",这是正确的!
现在让我们保存训练好的模型。如果你还记得 LoRA 和 QLoRA 的部分,我们其实并没有训练整个模型,而是一个适配器模块。在 Unsloth 中,有三种保存方式:lora
仅保存适配器,merged_16bit
和 merged_4bit
则是在 16 位或 4 位精度下将适配器与模型合并保存。
接下来,我们选择以 16 位精度合并,以确保最佳质量。我们先将模型保存到本地的 "model" 目录,然后上传到 Hugging Face Hub。你可以在 mlabonne/FineLlama-3.1-8B 找到这个训练好的模型。
model.save_pretrained_merged("model", tokenizer, save_method="merged_16bit")
model.push_to_hub_merged("mlabonne/FineLlama-3.1-8B", tokenizer, save_method="merged_16bit")
Unsloth 还提供了将模型直接转换为 GGUF 格式的功能。这是一种为 llama.cpp 设计的量化格式,兼容大多数推理引擎,比如 LM Studio、Ollama 和 oobabooga 的 text-generation-webui。你可以根据需要选择不同的量化精度 (详见 我关于 GGUF 和 llama.cpp 的文章),我们会遍历一个列表,依次以 q2_k
、q3_k_m
、q4_k_m
、q5_k_m
、q6_k
和 q8_0
进行量化,并将这些量化版本上传到 Hugging Face。你可以在 mlabonne/FineLlama-3.1-8B-GGUF 找到所有这些 GGUF 文件。
quant_methods = ["q2_k", "q3_k_m", "q4_k_m", "q5_k_m", "q6_k", "q8_0"]
for quant in quant_methods:
model.push_to_hub_gguf("mlabonne/FineLlama-3.1-8B-GGUF", tokenizer, quant)
恭喜你,我们从头开始微调了一个模型,并上传了不同量化版本,你现在可以在喜欢的推理引擎中使用它们。可以随时试试最终的模型版本,它已经在 mlabonne/FineLlama-3.1-8B-GGUF 上架。接下来可以做什么?以下是一些建议:
- 评估:可以在 Open LLM Leaderboard 上进行评估 (免费提交),或者使用其他评估工具,比如 LLM AutoEval。
- 对齐:可以使用偏好数据集,如 mlabonne/orpo-dpo-mix-40k,通过直接偏好优化 (Direct Preference Optimization) 来提升模型表现。
- 量化:使用 AutoQuant 将模型转换为其他格式,比如 EXL2、AWQ、GPTQ 或 HQQ,以实现更快的推理或更低精度。
- 部署:如果模型经过足够的训练 (约 20k 样本),可以使用 ZeroChat 在 Hugging Face Space 上进行部署。
结论
本文详细介绍了如何对 Llama 3.1 8B 模型进行监督微调,并提供了实操步骤。通过利用 QLoRA 的高效内存使用,我们成功在有限的 GPU 资源下微调了一个 8B 大语言模型,并提供了适合更大规模训练的高效替代方案。还提出了下一步的建议,包括评估、偏好对齐、量化和部署。
希望这篇指南对你有所帮助。如果你对大语言模型感兴趣,建议查看 LLM Course。