Google

本文介绍了最新的语音生成技术的进展，重点展示了如何通过先进的模型和算法推动更自然、更直观的数字助理和 AI 工具的语音交互。这些技术不仅能够生成高质量的单人语音，还能创建复杂的多角色对话，从而提升用户体验，促进知识获取。语音生成技术的应用：这些技术已被应用于多个 Google 产品和实验项目中，如 Gemini Live、Project Astra、Journey Voices 和 YouTube 的自动配音，帮助全球用户与 AI 工具进行自然的互动。最新功能开发： NotebookLM Audio Overviews：将上传的文档转化为生动的多角色对话，两个 AI 主持人总结用户材料并探讨相关主题。 Illuminate：生成关于研究论文的正式 AI 讨论，帮助知识更易于理解。研究基础：先前的研究（如 SoundStream 和 AudioLM）为音频生成奠定了基础，SoundStream 是一种神经音频编解码器，能够高效压缩和解压音频，而 AudioLM 则将音频生成视为语言建模任务。这些技术可以灵活处理不同类型的声音，并且在生成多角色对话时表现出色。最新模型的性能：最新的语音生成模型能够在不到 3 秒的时间内生成 2 分钟的多角色对话，且语音自然度、角色一致性和音质都有显著提升。模型通过专门的 Transformer 架构处理超过 5000 个音频标记，并使用新的语音编解码器将音频压缩至 600 bps 的低比特率。训练和优化：模型通过数十万小时的语音数据预训练，并通过小规模的高质量对话数据进行微调，确保生成的对话具有真实感，包括自然的停顿和语气变化。通过使用 SynthID 技术，对生成的音频进行水印标记，以防止滥用。未来发展：未来的改进方向包括提升模型的流畅度、音质，并增加对语音特征（如语调）的细粒度控制，同时探索与视频等其他模态的结合。这些技术将被应用于更广泛的场景，如教育和内容的普及化。推动音频生成的前沿发布时间：2024年10月30日我们的开创性语音生成技术正帮助全球用户与更自然、对话性更强、更直观的数字助手和AI工具互动。语音是人类交流的核心工具。它帮助人们在全球范围内分享信息、表达情感并建立相互理解。随着我们生成自然语音技术的不断进步，数字体验正变得更具吸引力、更加生动。近年来，我们一直在推动音频生成的前沿，开发出能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。这项技术已应用于Google的多个产品和实验中，包括 Gemini Live、Project Astra、Journey Voices 和 YouTube的自动配音，帮助全球用户与更加自然的数字助手互动。我们与Google的合作伙伴一起，开发了两项新功能，用于生成多人的长篇对话，使复杂内容更易于理解： NotebookLM Audio Overviews：将上传的文档转换为生动的对话形式，两个AI主持人总结用户的内容并相互调侃。 Illuminate：生成关于研究论文的AI讨论，以帮助知识更易于消化。音频生成的开创性技术多年来，我们一直在进行音频生成研究，并探索如何将生成自然对话的技术应用到我们的产品和实验工具中。在先前的 SoundStorm 研究中，我们首次展示了生成多位说话者之间自然对话片段（长达 30 秒）的能力。...

本文探讨了程序员 Jeff 和 Sanjay 之间深厚的友谊及其对 Google 成功的推动作用。他们的紧密合作不仅体现在工作中，还在生活中展现了创意与效率的结合。两人的协作方式、互补的思维方式以及在编程中的默契，使他们成为了 Google 发展过程中不可或缺的搭档。友谊与合作：Jeff 和 Sanjay 在 Google 之前就建立了深厚的友谊，他们常常一起度假，Jeff 的女儿们称 Sanjay 为“叔叔”。这种紧密的私人关系促进了他们在工作中的合作。编程风格的互补：Jeff 更加外向和探索性，能迅速提出新想法，而 Sanjay 则专注于系统设计，编写出结构优美的代码。他们的合作使得编程过程更加高效，减少了创意瓶颈的发生。重要项目：两人共同开发的 MapReduce 软件为 Google 带来了巨大的性能提升，使得程序员能够更高效地处理数据。该技术后来成为 Hadoop 的基础，广泛应用于大数据处理。 AI 的发展：Jeff 在 Google Brain 项目中的参与，使得神经网络技术得以迅速发展，最终取代了传统的搜索算法，标志着 Google 在 AI 领域的转折。角色变化：随着时间的推移，Jeff 和 Sanjay 的角色逐渐分化。Jeff 负责更大的项目和团队管理，而 Sanjay 则专注于独立开发，继续为 Google 的技术决策提供支持。持续的友谊：尽管工作节奏有所变化，两人仍保持联系，定期共进晚餐，回忆起早年的合作时光，展现了他们之间持久的友谊与默契。谷歌崛起背后的友谊 “我们在 Google 之前就已经这么做了。” Jeff 说道。 “但我也不清楚为什么我们觉得坐在一台电脑前比两台更好。” Sanjay 说道。 “我常常从离两条街远的 D.E.C. 研究室走到他的 D.E.C. 研究室，” Jeff 说道。“中间还经过一家意式冰淇淋店。” “所以是因为那家冰淇淋店！” Sanjay 笑着说。单身的 Sanjay 经常与 Jeff 及其妻子 Heidi 和两个女儿一同度假。Jeff 的女儿们称他为 Sanjay 叔叔，五个人通常在周五晚上一起吃饭。Sanjay 和 Jeff 的大女儿 Victoria 开始一起烘焙。“我看着他的女儿们一点点长大，” Sanjay 自豪地说。2004 年 Google 上市后，他们搬到了相距四英里的新居。Sanjay 住在旧山景城的一栋普通的三居室，而 Jeff 则亲自设计了他位于帕洛阿尔托市区附近的房子，还在地下室装了蹦床。在设计这栋房子时，他意识到虽然他喜欢规划空间设计，但没有耐心去处理那些他称之为“适合 Sanjay 的建筑细节”：如梁柱、螺栓和承重结构，这些都是支撑整体设计的基础部分。...