推动音频生成的前沿 • DeepMind

本文介绍了最新的语音生成技术的进展,重点展示了如何通过先进的模型和算法推动更自然、更直观的数字助理和 AI 工具的语音交互。这些技术不仅能够生成高质量的单人语音,还能创建复杂的多角色对话,从而提升用户体验,促进知识获取。 语音生成技术的应用:这些技术已被应用于多个 Google 产品和实验项目中,如 Gemini Live、Project Astra、Journey Voices 和 YouTube 的自动配音,帮助全球用户与 AI 工具进行自然的互动。 最新功能开发: NotebookLM Audio Overviews:将上传的文档转化为生动的多角色对话,两个 AI 主持人总结用户材料并探讨相关主题。 Illuminate:生成关于研究论文的正式 AI 讨论,帮助知识更易于理解。 研究基础: 先前的研究(如 SoundStream 和 AudioLM)为音频生成奠定了基础,SoundStream 是一种神经音频编解码器,能够高效压缩和解压音频,而 AudioLM 则将音频生成视为语言建模任务。 这些技术可以灵活处理不同类型的声音,并且在生成多角色对话时表现出色。 最新模型的性能: 最新的语音生成模型能够在不到 3 秒的时间内生成 2 分钟的多角色对话,且语音自然度、角色一致性和音质都有显著提升。 模型通过专门的 Transformer 架构处理超过 5000 个音频标记,并使用新的语音编解码器将音频压缩至 600 bps 的低比特率。 训练和优化: 模型通过数十万小时的语音数据预训练,并通过小规模的高质量对话数据进行微调,确保生成的对话具有真实感,包括自然的停顿和语气变化。 通过使用 SynthID 技术,对生成的音频进行水印标记,以防止滥用。 未来发展: 未来的改进方向包括提升模型的流畅度、音质,并增加对语音特征(如语调)的细粒度控制,同时探索与视频等其他模态的结合。 这些技术将被应用于更广泛的场景,如教育和内容的普及化。 推动音频生成的前沿 发布时间:2024年10月30日 我们的开创性语音生成技术正帮助全球用户与更自然、对话性更强、更直观的数字助手和AI工具互动。 语音是人类交流的核心工具。它帮助人们在全球范围内分享信息、表达情感并建立相互理解。随着我们生成自然语音技术的不断进步,数字体验正变得更具吸引力、更加生动。 近年来,我们一直在推动音频生成的前沿,开发出能够从文本、节奏控制和特定声音等多种输入生成高质量自然语音的模型。这项技术已应用于Google的多个产品和实验中,包括 Gemini Live、Project Astra、Journey Voices 和 YouTube的自动配音,帮助全球用户与更加自然的数字助手互动。 我们与Google的合作伙伴一起,开发了两项新功能,用于生成多人的长篇对话,使复杂内容更易于理解: NotebookLM Audio Overviews:将上传的文档转换为生动的对话形式,两个AI主持人总结用户的内容并相互调侃。 Illuminate:生成关于研究论文的AI讨论,以帮助知识更易于消化。 音频生成的开创性技术 多年来,我们一直在进行音频生成研究,并探索如何将生成自然对话的技术应用到我们的产品和实验工具中。在先前的 SoundStorm 研究中,我们首次展示了生成多位说话者之间自然对话片段(长达 30 秒)的能力。...

October 31, 2024 · 1 min · fisherdaddy

谷歌崛起背后的友谊

本文探讨了程序员 Jeff 和 Sanjay 之间深厚的友谊及其对 Google 成功的推动作用。他们的紧密合作不仅体现在工作中,还在生活中展现了创意与效率的结合。两人的协作方式、互补的思维方式以及在编程中的默契,使他们成为了 Google 发展过程中不可或缺的搭档。 友谊与合作:Jeff 和 Sanjay 在 Google 之前就建立了深厚的友谊,他们常常一起度假,Jeff 的女儿们称 Sanjay 为“叔叔”。这种紧密的私人关系促进了他们在工作中的合作。 编程风格的互补:Jeff 更加外向和探索性,能迅速提出新想法,而 Sanjay 则专注于系统设计,编写出结构优美的代码。他们的合作使得编程过程更加高效,减少了创意瓶颈的发生。 重要项目:两人共同开发的 MapReduce 软件为 Google 带来了巨大的性能提升,使得程序员能够更高效地处理数据。该技术后来成为 Hadoop 的基础,广泛应用于大数据处理。 AI 的发展:Jeff 在 Google Brain 项目中的参与,使得神经网络技术得以迅速发展,最终取代了传统的搜索算法,标志着 Google 在 AI 领域的转折。 角色变化:随着时间的推移,Jeff 和 Sanjay 的角色逐渐分化。Jeff 负责更大的项目和团队管理,而 Sanjay 则专注于独立开发,继续为 Google 的技术决策提供支持。 持续的友谊:尽管工作节奏有所变化,两人仍保持联系,定期共进晚餐,回忆起早年的合作时光,展现了他们之间持久的友谊与默契。 谷歌崛起背后的友谊 “我们在 Google 之前就已经这么做了。” Jeff 说道。 “但我也不清楚为什么我们觉得坐在一台电脑前比两台更好。” Sanjay 说道。 “我常常从离两条街远的 D.E.C. 研究室走到他的 D.E.C. 研究室,” Jeff 说道。“中间还经过一家意式冰淇淋店。” “所以是因为那家冰淇淋店!” Sanjay 笑着说。 单身的 Sanjay 经常与 Jeff 及其妻子 Heidi 和两个女儿一同度假。Jeff 的女儿们称他为 Sanjay 叔叔,五个人通常在周五晚上一起吃饭。Sanjay 和 Jeff 的大女儿 Victoria 开始一起烘焙。“我看着他的女儿们一点点长大,” Sanjay 自豪地说。2004 年 Google 上市后,他们搬到了相距四英里的新居。Sanjay 住在旧山景城的一栋普通的三居室,而 Jeff 则亲自设计了他位于帕洛阿尔托市区附近的房子,还在地下室装了蹦床。在设计这栋房子时,他意识到虽然他喜欢规划空间设计,但没有耐心去处理那些他称之为“适合 Sanjay 的建筑细节”:如梁柱、螺栓和承重结构,这些都是支撑整体设计的基础部分。...

August 21, 2024 · 3 min · fisherdaddy