Llama

本文介绍了如何高效地对 Llama 3.1 模型进行监督微调，特别是使用 Unsloth 库进行 8B 模型的微调。文章强调，Llama 3.1 的发布缩小了闭源和开源模型之间的性能差距，微调该模型可以实现更好的性能和定制化，且成本更低。作者提供了监督微调的全面概述，比较了与提示工程的不同，并详细介绍了主要技术及其优缺点。监督微调（SFT）概述： SFT 是一种改善和定制预训练 LLM 的方法，通过在较小的数据集上重新训练基础模型，使其能够更好地执行指令和回答问题。 SFT 可以提高模型的整体性能，增加新知识，或适应特定任务和领域。 SFT 技术：全微调：对预训练模型的所有参数进行重新训练，效果最佳但需要大量计算资源。 LoRA（低秩适应）：只训练小的适配器，减少内存使用和训练时间，非破坏性。 QLoRA：LoRA 的扩展，提供更高的内存节省，适合 GPU 内存受限的情况，但训练时间更长。微调 Llama 3.1 8B 的过程：使用 Unsloth 库进行高效微调，支持单 GPU 设置，提供更快的训练速度和更低的内存使用。训练使用了 mlabonne/FineTome-100k 数据集，经过处理后应用 ChatML 模板。训练参数和过程：训练使用 A100 GPU，耗时约 4 小时 45 分钟，建议在资源有限的情况下加载数据集的子集以加快训练。主要超参数包括学习率、批量大小、训练轮数等，使用 AdamW 8-bit 优化器。模型评估与保存：训练完成后，通过简单的提示测试模型性能，并使用 Unsloth 提供的保存方法将训练好的模型上传到 Hugging Face Hub。文章还提到量化模型的不同格式以便于在推理引擎中使用。后续步骤建议：评估模型性能，进行偏好对齐，量化以提高推理速度，或在 Hugging Face Space 部署模型。使用 Unsloth 超高效微调 Llama 3....