本文介绍了最新的语音生成技术的进展,重点展示了如何通过先进的模型和算法推动更自然、更直观的数字助理和 AI 工具的语音交互。这些技术不仅能够生成高质量的单人语音,还能创建复杂的多角色对话,从而提升用户体验,促进知识获取。
语音生成技术的应用:这些技术已被应用于多个 Google 产品和实验项目中,如 Gemini Live、Project Astra、Journey Voices 和 YouTube 的自动配音,帮助全球用户与 AI 工具进行自然的互动。
最新功能开发:
- NotebookLM Audio Overviews:将上传的文档转化为生动的多角色对话,两个 AI 主持人总结用户材料并探讨相关主题。
- Illuminate:生成关于研究论文的正式 AI 讨论,帮助知识更易于理解。
研究基础:
- 先前的研究(如 SoundStream 和 AudioLM)为音频生成奠定了基础,SoundStream 是一种神经音频编解码器,能够高效压缩和解压音频,而 AudioLM 则将音频生成视为语言建模任务。
- 这些技术可以灵活处理不同类型的声音,并且在生成多角色对话时表现出色。
最新模型的性能:
- 最新的语音生成模型能够在不到 3 秒的时间内生成 2 分钟的多角色对话,且语音自然度、角色一致性和音质都有显著提升。
- 模型通过专门的 Transformer 架构处理超过 5000 个音频标记,并使用新的语音编解码器将音频压缩至 600 bps 的低比特率。
训练和优化:
- 模型通过数十万小时的语音数据预训练,并通过小规模的高质量对话数据进行微调,确保生成的对话具有真实感,包括自然的停顿和语气变化。
- 通过使用 SynthID 技术,对生成的音频进行水印标记,以防止滥用。
未来发展:
- 未来的改进方向包括提升模型的流畅度、音质,并增加对语音特征(如语调)的细粒度控制,同时探索与视频等其他模态的结合。
- 这些技术将被应用于更广泛的场景,如教育和内容的普及化。
推动音频生成的前沿
发布时间:2024年10月30日
我们的开创性语音生成技术正帮助全球用户与更自然、对话性更强、更直观的数字助手和AI工具互动。
语音是人类交流的核心工具。它帮助人们在全球范围内分享信息、表达情感并建立相互理解。随着我们生成自然语音技术的不断进步,数字体验正变得更具吸引力、更加生动。
近年来,我们一直在推动音频生成的前沿,开发出能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。这项技术已应用于Google的多个产品和实验中,包括 Gemini Live、Project Astra、Journey Voices 和 YouTube的自动配音,帮助全球用户与更加自然的数字助手互动。
我们与Google的合作伙伴一起,开发了两项新功能,用于生成多人的长篇对话,使复杂内容更易于理解:
- NotebookLM Audio Overviews:将上传的文档转换为生动的对话形式,两个AI主持人总结用户的内容并相互调侃。
- Illuminate:生成关于研究论文的AI讨论,以帮助知识更易于消化。
音频生成的开创性技术
多年来,我们一直在进行音频生成研究,并探索如何将生成自然对话的技术应用到我们的产品和实验工具中。在先前的 SoundStorm 研究中,我们首次展示了生成多位说话者之间自然对话片段(长达 30 秒)的能力。
这一研究是对我们早期工作的延伸,包括 SoundStream 和 AudioLM,这些项目让我们能够将多种基于文本的语言建模技术应用于音频生成。
SoundStream 是一种神经网络音频编解码器,能够在不损失音质的前提下高效压缩和解压音频输入。在训练过程中,SoundStream 学会将音频映射为一系列声学 Token,这些 Token 包含了重建高保真音频所需的所有信息,如语调和音色等特性。
AudioLM 将音频生成视作一种语言建模任务,生成像 SoundStream 这样的编解码器所需的声学 Token。因此,AudioLM 框架不对音频的类型或成分做任何预设,可无需架构调整即可灵活处理各种声音——这使得它非常适合用于多说话者对话的建模。
基于这些研究成果,我们最新的语音生成技术能够在给定对话脚本和说话者轮流标记的情况下,生成 2 分钟的对话,并在自然度、说话者一致性和音质方面都有所提升。该模型在单个 Tensor Processing Unit (TPU) v5e 芯片 上通过一次推理完成任务,用时不到 3 秒。这意味着它的音频生成速度比实时快超过 40 倍。
扩展我们的音频生成模型
为了扩展我们的单说话者生成模型,使其支持多说话者,我们主要需要解决数据和模型容量的问题。为了帮助最新的语音生成模型生成更长的语音片段,我们设计了一种更高效的语音编解码器,可以将音频压缩为一个 Token 序列,压缩后码率低至每秒 600 比特,同时保持输出质量不受影响。
该编解码器生成的 Token 具有层次结构,并按照时间帧进行分组。每组的首个 Token 捕捉语音和韵律信息,而最后的 Token 则编码更精细的声学细节。
即使采用了新的语音编解码器,生成 2 分钟的对话仍需生成超过 5000 个声学 Token。为了解决长序列建模的问题,我们开发了一种专门的 Transformer 架构,能够高效处理信息层次结构,与我们的声学 Token 结构相匹配。
借助这种技术,我们能够在一次自回归推理中高效生成对应对话的声学 Token。生成完成后,这些 Token 可以通过我们的语音编解码器解码回音频波形。
新的语音体验即将到来
我们目前专注于提升模型的流利度和音质,并为语音特征(如语调)提供更精细的控制,同时也在探索如何将这些进展与视频等其他模态更好地结合。
高级语音生成技术的潜在应用非常广泛,特别是在与我们的 Gemini 模型系列结合之后。从提升学习体验到让内容更通用、更易于获取,我们很期待继续推动语音技术的可能性边界。