🍷 FineWeb:在网络上大规模获取最优质的文本数据
HuggingFace 发布了一个名为 🍷 FineWeb 的新大规模预训练数据集,该数据集旨在提升大语言模型(LLM)的性能。FineWeb 数据集由 96 个 CommonCrawl 快照生成,总计 15 万亿个 token,占用 44TB 磁盘空间。通过详细记录和分析数据去重和过滤策略,FineWeb 数据集在性能上优于其他公开的预训练数据集。此外,本文还介绍了 FineWeb 的子集 📚 FineWeb-Edu,该子集通过自动化高质量注释构建,专注于教育内容,并在多个教育基准测试中表现优异。 🔑 关键细节 ➡️ 数据集构建与处理 数据来源:FineWeb 使用了 CommonCrawl 作为数据源,涵盖了从 2007 年至今的 96 个快照。 数据处理:使用了 datatrove 开源库进行数据处理,包括文本提取、去重和过滤。 去重策略:采用 MinHash 技术进行模糊去重,确保数据集的多样性和质量。 ➡️ 质量评估与基准测试 小模型评估:通过训练小模型(1-2 亿参数)并在一组基准任务上评估,验证数据集质量。 基准任务:包括 CommonSense QA、HellaSwag、OpenBook QA、PIQA、SIQA、WinoGrande、ARC 和 MMLU。 ➡️ 过滤策略 基础过滤:包括 URL 过滤、语言识别和质量过滤。 高级过滤:借鉴了 C4 数据集的过滤策略,并开发了新的启发式过滤器。 自定义过滤器:基于统计分析,开发了新的过滤器,进一步提升数据集质量。 ➡️ FineWeb-Edu 子集 教育内容注释:使用 Llama-3-70B-Instruct 模型对 50 万个样本进行教育质量评分。 类器训练:基于这些注释训练了一个小型分类器,用于大规模数据过滤。 性能提升:FineWeb-Edu 在教育基准测试中表现出色,显著优于其他公开数据集。 ➡️ 未来展望...