Minimax Speech-02-HD:全球最强 TTS 技术报告深度解读
Minimax 昨天发布全球最强 TTS:Speech-02-HD 模型 技术报告,注意,本技术报告说的 MiniMax-Speech 均指 Speech-02-HD 模型。这里我说它全球最强,不是我随便说的,也不是他们自己的评测指标来的,而是来自于国际权威的Artificial Analysis TTS 榜单,通过全球用户测评。你也可以直接在官网进行体验。 快速看下模型的亮点 一个可学习的说话人编码器,该编码器无需转录即可从参考音频中提取音色特征,从而实现高表现力的零样本语音克隆。在 零样本 (zero-shot) 方式下生成与参考音频音色高度一致且富有表现力的语音,同时在 单样本 (one-shot) 语音克隆方面也能达到极高的相似度。 采用潜在流匹配模型作为 decoder,该模型基于创新的 Flow-VAE 模块。传统的 VAE 假设潜在空间为标准正态分布,而 Flow-VAE 引入流模型,通过一系列可逆映射更灵活地学习表达能力更强的后验分布,更准确地捕获复杂数据模式。 支持 32 种语言和卓越的多语言/跨语言能力 在多个客观和主观评估指标上取得了 最优 (SOTA) 结果。在 Seed-TTS test set 的客观语音克隆评估中,词错误率 (WER) 和 说话人相似度 (SIM) 均达到 SOTA。在公共 TTS Arena 排行榜上名列前茅 得益于说话人编码器提供的鲁棒且解耦的表示,该模型无需修改基础模型即可扩展到多种应用,例如:通过 LoRA 实现任意语音情感控制;通过从文本描述直接合成音色特征实现 文本转语音 (T2V);以及通过额外数据微调音色特征实现 专业语音克隆 (PVC)。 一些细节 架构 主要包含三个部分: 分词器(tokenizer) 自回归 Transformer(AR Transformer) 潜在流匹配模型(包含流匹配模块和 Flow-VAE 模块) 文本分词器采用字节对编码 (BPE),而音频分词器则采用 Encoder-VQ-Decoder 架构 (Van Den Oord 等人,2017; Betker,2023) 对梅尔谱图进行 25 个 token/秒的量化,并使用连接时序分类 (CTC) 监督。该语音分词器实现了高压缩率,同时有效地保留了丰富的声学细节和语义信息。...