英伟达发布了名为 Nemotron-4 340B 的开源模型家族,开发者可利用这些模型为大型语言模型(LLM)生成合成数据,应用于商业领域,如医疗、金融、制造、零售等行业。高质量的训练数据对LLM的性能至关重要,但获取这些数据通常成本高昂且难度较大。Nemotron-4 340B提供了免费且可扩展的方法来生成合成数据,有助于构建强大的LLM。原文戳这里

➡️ Nemotron-4 340B 模型家族

  • 包括基础模型、指导模型和奖励模型,形成生成合成数据的流水线,用于训练和精调LLM。
  • 这些模型针对英伟达 NeMo 开源框架进行了优化,该框架支持端到端模型训练,包括数据整理、定制和评估。
  • 同时也针对开源的英伟达 TensorRT-LLM 库进行了优化,以便进行高效推理。

➡️ 生成合成数据的流程

  • 在数据获取受限的情况下,LLM 可以帮助生成合成训练数据。
  • Nemotron-4 340B 指导模型生成模仿真实世界数据特性的多样化合成数据,提高数据质量,增强 LLM 在多个领域的性能和鲁棒性。
  • 开发者可以使用 Nemotron-4 340B 奖励模型筛选高质量响应,该模型在 Hugging Face RewardBench 排行榜上排名第一。

➡️ 模型优化与精调

  • 使用 NeMo 框架和 TensorRT-LLM,开发者可以优化指导模型和奖励模型,生成合成数据并评分响应。
  • 所有 Nemotron-4 340B 模型都利用 TensorRT-LLM 进行优化,以实现张量并行,提高大规模推理的效率。
  • Nemotron-4 340B 基础模型经过 9 万亿个令牌的训练,可通过 NeMo 框架定制,以适应特定用例或领域。

➡️ 安全性与评估

  • Nemotron-4 340B 指导模型经过了广泛的安全性评估,包括对抗性测试,并在多个风险指标上表现良好。
  • 用户仍需对模型的输出进行仔细评估,以确保生成的合成数据适合其用例,安全且准确。

NVIDIA 发布用于训练大语言模型的开放合成数据生成管道

NVIDIA 今天宣布 Nemotron-4 340B,这是一个开放模型系列,开发者可以用来生成用于商业应用的大语言模型 (LLM) 的合成数据,涵盖医疗、金融、制造、零售等各个行业。

高质量的训练数据对于定制 LLM 的性能、准确性和响应质量至关重要,但强大的数据集往往非常昂贵且难以获得。

Nemotron-4 340B 通过一个独特的开放模型许可,为开发者提供了一种免费的、可扩展的方式来生成合成数据,从而帮助构建强大的 LLM。

Nemotron-4 340B 系列包括基础模型、指导模型和奖励模型,这些模型构成了一个生成合成数据的管道,用于训练和优化 LLM。这些模型经过优化,可以与 NVIDIA NeMo,一个开源的端到端模型训练框架,包括数据策划、定制和评估。他们也经过优化,可以使用开源的 NVIDIA TensorRT-LLM 库进行推理。

Nemotron-4 340B 现在可以从 Hugging Face 下载。开发者很快可以在 ai.nvidia.com 访问这些模型,届时它们将作为 NVIDIA NIM 微服务,并具有标准应用编程接口,可以部署到任何地方。

使用 Nemotron 生成合成数据

在难以获得大型、多样化标记数据集时,LLM 可以帮助开发者生成合成训练数据。

Nemotron-4 340B Instruct 模型创建多样化的合成数据,模仿真实数据的特征,帮助提高数据质量,从而提升定制 LLM 在各个领域的性能和鲁棒性。

然后,为了提升 AI 生成数据的质量,开发者可以使用 Nemotron-4 340B Reward 模型筛选高质量的响应。Nemotron-4 340B Reward 对响应的五个属性进行评分:有用性、正确性、一致性、复杂性和冗长性。它目前在 Hugging Face RewardBench 排行榜上排名第一,该排行榜由 AI2 创建,用于评估奖励模型的能力、安全性和陷阱。

nemotron synthetic data generation pipeline diagram
在这个合成数据生成管道中,首先使用 Nemotron-4 340B Instruct 模型生成合成文本输出。然后由评估模型 Nemotron-4 340B Reward 对生成的文本进行评估,提供反馈以指导迭代改进,确保合成数据准确、相关并符合特定要求。

研究人员还可以通过使用专有数据并结合 HelpSteer2 数据集,定制 Nemotron-4 340B Base 模型,创建自己的指导或奖励模型。

使用 NeMo 进行微调,使用 TensorRT-LLM 优化推理

使用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM,开发者可以优化指导和奖励模型的效率,以生成合成数据和评分响应。

所有 Nemotron-4 340B 模型都使用 TensorRT-LLM 进行了优化,以利用 Tensor 并行性,这是一种模型并行性,各个权重矩阵分布在多个 GPU 和服务器上,从而实现高效的大规模推理。

Nemotron-4 340B Base 在 9 万亿个 Token 上训练,可以使用 NeMo 框架定制以适应特定用例或领域。这个微调过程受益于广泛的预训练数据,并为特定的下游任务产生更准确的输出。

通过 NeMo 框架,有多种定制方法,包括监督微调和参数高效微调方法,如低秩适应 (LoRA)。

为了提高模型质量,开发者可以将模型与 NeMo Aligner 和由 Nemotron-4 340B Reward 注释的数据集对齐。对齐是训练 LLM 的关键步骤,在这个过程中,使用人类反馈强化学习 (RLHF) 等算法对模型的行为进行微调,以确保其输出安全、准确、上下文适当并与其预期目标一致。

寻求企业级生产环境支持和安全性的企业还可以通过云原生 NVIDIA AI Enterprise 软件平台访问 NeMo 和 TensorRT-LLM,该平台为生成式 AI 基础模型提供加速和高效的运行时。

评估模型安全性和入门

Nemotron-4 340B Instruct 模型经过了广泛的安全评估,包括对抗性测试,并在广泛的风险指标中表现良好。用户仍应仔细评估模型的输出,以确保合成生成的数据适合、安全且准确。

有关模型安全性和安全评估的更多信息,请阅读模型卡。

通过 Hugging Face 下载 Nemotron-4 340B 模型。有关详细信息,请阅读 模型研究论文数据集