NVIDIA 发布用于训练大语言模型的开放合成数据生成管道

英伟达发布了名为 Nemotron-4 340B 的开源模型家族,开发者可利用这些模型为大型语言模型(LLM)生成合成数据,应用于商业领域,如医疗、金融、制造、零售等行业。高质量的训练数据对LLM的性能至关重要,但获取这些数据通常成本高昂且难度较大。Nemotron-4 340B提供了免费且可扩展的方法来生成合成数据,有助于构建强大的LLM。原文戳这里。 ➡️ Nemotron-4 340B 模型家族 包括基础模型、指导模型和奖励模型,形成生成合成数据的流水线,用于训练和精调LLM。 这些模型针对英伟达 NeMo 开源框架进行了优化,该框架支持端到端模型训练,包括数据整理、定制和评估。 同时也针对开源的英伟达 TensorRT-LLM 库进行了优化,以便进行高效推理。 ➡️ 生成合成数据的流程 在数据获取受限的情况下,LLM 可以帮助生成合成训练数据。 Nemotron-4 340B 指导模型生成模仿真实世界数据特性的多样化合成数据,提高数据质量,增强 LLM 在多个领域的性能和鲁棒性。 开发者可以使用 Nemotron-4 340B 奖励模型筛选高质量响应,该模型在 Hugging Face RewardBench 排行榜上排名第一。 ➡️ 模型优化与精调 使用 NeMo 框架和 TensorRT-LLM,开发者可以优化指导模型和奖励模型,生成合成数据并评分响应。 所有 Nemotron-4 340B 模型都利用 TensorRT-LLM 进行优化,以实现张量并行,提高大规模推理的效率。 Nemotron-4 340B 基础模型经过 9 万亿个令牌的训练,可通过 NeMo 框架定制,以适应特定用例或领域。 ➡️ 安全性与评估 Nemotron-4 340B 指导模型经过了广泛的安全性评估,包括对抗性测试,并在多个风险指标上表现良好。 用户仍需对模型的输出进行仔细评估,以确保生成的合成数据适合其用例,安全且准确。 NVIDIA 发布用于训练大语言模型的开放合成数据生成管道 NVIDIA 今天宣布 Nemotron-4 340B,这是一个开放模型系列,开发者可以用来生成用于商业应用的大语言模型 (LLM) 的合成数据,涵盖医疗、金融、制造、零售等各个行业。 高质量的训练数据对于定制 LLM 的性能、准确性和响应质量至关重要,但强大的数据集往往非常昂贵且难以获得。 Nemotron-4 340B 通过一个独特的开放模型许可,为开发者提供了一种免费的、可扩展的方式来生成合成数据,从而帮助构建强大的 LLM。...

June 17, 2024 · 1 min · fisherdaddy

NVIDIA 公布 GPU 和互连技术路线图,展望到 2027 年

Nvidia 因其架构、工程和供应链的领先,在生成式 AI 市场占据了优势地位。公司不仅资金充足,而且其 GPU 和互连技术路线图已规划至 2027 年,显示了其在推动AI革命中的雄心壮志。Nvidia 的 CEO 黄仁勋在 Computex 大会上强调了生成式 AI 的重要性,并展望了 AI 的未来以及 Nvidia 硬件的发展。 🔑 关键细节 ➡️ 性能提升与能源消耗 从“Pascal” P100 GPU 到即将推出的 “Blackwell” B100 GPU,Nvidia 的GPU 性能在 8 年间提升了 1053 倍。 性能提升部分得益于将浮点精度从 FP16 降低到 FP4,这一变化使得性能增加了约 4 倍。 能耗降低是关键,因为生成大型语言模型响应所需的能量成本必须降低,以便与性能提升保持同步。 ➡️ 成本与投资 GPU 的价格在过去 8 年中上涨了约 7.5 倍,但性能提升超过 1000 倍。 使用 Blackwell系 统,公司可以在约 10天 内用大约 10000 个 GPU 训练 GPT-4 1.8T MoE 模型。 一个包含 10000 个 GPU 的 Blackwell 系统成本约为 8 亿美元,而 10 天的电力成本约为 54,000 美元。...

June 3, 2024 · 4 min · fisherdaddy

黄仁勋台大演讲全文

前天英伟达发布Q4财报,季度营收达到600亿美金,估计暴涨。这里我们来回顾一下黄仁勋在2023年5月份在台大毕业典礼上的演讲。 各位女士、先生,老师,来宾,骄傲的父母们,以及 2023 年国立台湾大学的毕业生们,今天对你们来说是非常特别的一天,也是你们父母梦想成真的一天。你们应该快点从家里搬出去,这确实是一个充满骄傲和喜悦的日子! 你们的父母为了今天做出许多牺牲,我的父母、哥哥也在这里,让我们向所有的父母和祖父母们表达感谢。 十多年前,我第一次来到台湾大学,陈博士邀请我参观他的实验室。他的儿子在硅谷工作,知道 NVIDIA 的 CUDA,推荐爸爸用它来做量子物理模拟实验。我在这个实验室看到满满的 NVIDIA GeForce 游戏显卡,插在 PC 主机板上,走道上的架子开着好几台电扇在散热。 陈博士以游戏显卡用台湾人的方式自制了超级电脑,这是一个展开 NVIDIA 旅程的故事,他以自己的努力为荣,也对我说:「黄先生,因为你的产品,让我能追寻我的志业。」 这句话至今仍让我感动不已,它抓住了我们公司的使命,就是帮助我们这个时代的爱因斯坦和达芬奇们完成他们的志业。 我很高兴能回到台大在你们的毕业典礼致词。当时我从 Oregon State University 毕业的时候,世界还很简单,没有液晶电视,也没有有线电视跟 MTV,手机和电话这两个词是分开讲的。 那一年是 1984 年,IBM PC-AT 和苹果 Macintosh 开启个人电脑革命,也开创了我们所知的芯片和软件产业。现在你们所处的是一个更复杂的世界,充满了地缘政治、社会和环境的变化和挑战。 因为科技,我们能持续连线,沉浸在一个与现实世界平行的数位世界里,汽车也能自动驾驶了。 AI 会创造过去不存在的新工作,每个人都要学习掌握 AI 红利 在电脑产业创造了家用个人电脑 40 年后,我们发明了人工智能,例如自动驾驶或辨识 X 光影像的软件,AI 软件为电脑自动化打开了大门,也开启了价值数兆美元的产业——医疗保健,金融服务,运输和制造业等等,AI 创造了各种机会。 敏捷的公司利用 AI 提升他们的地位,反之,那些落后的公司将会灭亡。正在听这场演讲的创业家们也将开创新事业,如同过去每一个运算时代,新的产业会出现。 AI 创造过去不存在的新工作,像资料工程,提示工程,AI 工厂营运与 AI 安全工程师等等。 这些都是以前没有的工作,有些工作会因为自动化而被淘汰,但可以肯定的是,AI 将改变每一个工作,让工程师、设计师、艺术家、营销人员还有制造规划人员有更好的表现。 就像过去每个时代的人一样,他们拥抱新技术然后成功了,每一家公司,包括你们,都要学着掌握 AI 的红利,让 AI 成为你的副驾驶,做出惊人的事业。 有些人担心 AI 可能会抢走他们的工作,其实,是擅长使用 AI 的「人」会抢走这些人的工作。 我们处在重大科技时代的开端,像 PC,互联网,移动和云等等。但是 AI 的技术更基础,因为每个运算的层次都被重新打造,从我们如何写软件到它如何运作,AI 从根本上重新创造了运算方式。 从各个层面来看,这是计算机行业的一次重生,对台湾企业来说,这也是个千载难逢的机会。你们就是电脑产业的基石,在未来的十年,我们的产业将以全新、加速的 AI 技术取代全球超过一兆美元的传统电脑市场。...

February 23, 2024 · 2 min · fisherdaddy