Minimax Speech-02-HD:全球最强 TTS 技术报告深度解读

Minimax 昨天发布全球最强 TTS:Speech-02-HD 模型 技术报告,注意,本技术报告说的 MiniMax-Speech 均指 Speech-02-HD 模型。这里我说它全球最强,不是我随便说的,也不是他们自己的评测指标来的,而是来自于国际权威的Artificial Analysis TTS 榜单,通过全球用户测评。你也可以直接在官网进行体验。 快速看下模型的亮点 一个可学习的说话人编码器,该编码器无需转录即可从参考音频中提取音色特征,从而实现高表现力的零样本语音克隆。在 零样本 (zero-shot) 方式下生成与参考音频音色高度一致且富有表现力的语音,同时在 单样本 (one-shot) 语音克隆方面也能达到极高的相似度。 采用潜在流匹配模型作为 decoder,该模型基于创新的 Flow-VAE 模块。传统的 VAE 假设潜在空间为标准正态分布,而 Flow-VAE 引入流模型,通过一系列可逆映射更灵活地学习表达能力更强的后验分布,更准确地捕获复杂数据模式。 支持 32 种语言和卓越的多语言/跨语言能力 在多个客观和主观评估指标上取得了 最优 (SOTA) 结果。在 Seed-TTS test set 的客观语音克隆评估中,词错误率 (WER) 和 说话人相似度 (SIM) 均达到 SOTA。在公共 TTS Arena 排行榜上名列前茅 得益于说话人编码器提供的鲁棒且解耦的表示,该模型无需修改基础模型即可扩展到多种应用,例如:通过 LoRA 实现任意语音情感控制;通过从文本描述直接合成音色特征实现 文本转语音 (T2V);以及通过额外数据微调音色特征实现 专业语音克隆 (PVC)。 一些细节 架构 主要包含三个部分: 分词器(tokenizer) 自回归 Transformer(AR Transformer) 潜在流匹配模型(包含流匹配模块和 Flow-VAE 模块) 文本分词器采用字节对编码 (BPE),而音频分词器则采用 Encoder-VQ-Decoder 架构 (Van Den Oord 等人,2017; Betker,2023) 对梅尔谱图进行 25 个 token/秒的量化,并使用连接时序分类 (CTC) 监督。该语音分词器实现了高压缩率,同时有效地保留了丰富的声学细节和语义信息。...

May 16, 2025 · 2 min · fisherdaddy

闫俊杰的核心认知分享:MiniMax 的 AI 进化之路

本文来自于晚点 2025年 1 月对 MiniMax 创始人兼 CEO 闫俊杰的访谈,以下是闫俊杰的一些核心认知。 闫俊杰认为,AI 大模型的发展逻辑与移动互联网不同,不应依赖用户反馈来提升模型能力。他指出,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。他强调,技术驱动是 AI 公司发展的核心,并认为开源能加速技术进化。他认为,AI 领域需要清晰定义模型能力分级,并通过技术手段逼近定义好的指标,而不是通过大量的 AB 测试和用户反馈来迭代模型。 MiniMax 的技术选择 MiniMax 发布了首个开源模型 MiniMax-01 系列,该模型在 4000 亿以上参数的大模型中,首次使用了线性注意力机制新架构,能高效处理 400 万 token 上下文。闫俊杰认为 long-context(长上下文)是 Agent(智能体)的重要能力。MiniMax 没有第一批跟进 OpenAI o 系列模型,而是选择了线性注意力机制,这与行业共识不同。 对用户和产品的看法 闫俊杰认为,用户数量并非 AI 竞争的核心,不应使用移动互联网的产品方法论来思考 AI 产品。他认为,AI 产品的重点在于模型能力的提升,而非用户反馈。他指出,“ChatGPT” 的 DAU 是 “Claude” 的 50 倍到 100 倍,但它们的模型其实差不多,这说明智能水平的提升,没那么依赖很多用户。 开源的意义 闫俊杰认为,开源能加速技术进化,并有助于建立技术品牌。他表示,MiniMax 开源模型不会藏更好的东西,因为所有模型一年之后都会落后。他认为,技术品牌之所以重要,本质也是因为这个行业最大的驱动力是技术进化。 对行业误区的反思 闫俊杰指出,中国大部分公司,包括创业公司和大厂,都在用做推荐系统的方法来做大模型产品,这是一种误区。他认为,应该非常清晰地定义模型能力分级,然后搞清楚每一代提升,需要什么样的算法、数据和推理过程,通过技术手段来逼近定义好的指标。 技术驱动的体现 MiniMax 在产品开发中,优先考虑算法上限高的功能,即使这会影响用户体验。例如,海螺视频虽然访问量很高,但页面仍然粗糙,因为 MiniMax 优先考虑算法的进步。 对 Agent 的看法 闫俊杰认为,Agent 的重要能力在于处理长上下文和多 Agent 之间的协同。他认为,AI 的发展方向是能处理复杂任务,达到专业人士的水平。他认为,Agent 最先落地的场景是 coding 和信息的获取。...

January 17, 2025 · 1 min · fisherdaddy