MiniMax

Minimax 昨天发布全球最强 TTS：Speech-02-HD 模型技术报告，注意，本技术报告说的 MiniMax-Speech 均指 Speech-02-HD 模型。这里我说它全球最强，不是我随便说的，也不是他们自己的评测指标来的，而是来自于国际权威的Artificial Analysis TTS 榜单，通过全球用户测评。你也可以直接在官网进行体验。快速看下模型的亮点一个可学习的说话人编码器，该编码器无需转录即可从参考音频中提取音色特征，从而实现高表现力的零样本语音克隆。在零样本 (zero-shot) 方式下生成与参考音频音色高度一致且富有表现力的语音，同时在单样本 (one-shot) 语音克隆方面也能达到极高的相似度。采用潜在流匹配模型作为 decoder，该模型基于创新的 Flow-VAE 模块。传统的 VAE 假设潜在空间为标准正态分布，而 Flow-VAE 引入流模型，通过一系列可逆映射更灵活地学习表达能力更强的后验分布，更准确地捕获复杂数据模式。支持 32 种语言和卓越的多语言/跨语言能力在多个客观和主观评估指标上取得了最优 (SOTA) 结果。在 Seed-TTS test set 的客观语音克隆评估中，词错误率 (WER) 和说话人相似度 (SIM) 均达到 SOTA。在公共 TTS Arena 排行榜上名列前茅得益于说话人编码器提供的鲁棒且解耦的表示，该模型无需修改基础模型即可扩展到多种应用，例如：通过 LoRA 实现任意语音情感控制；通过从文本描述直接合成音色特征实现文本转语音 (T2V)；以及通过额外数据微调音色特征实现专业语音克隆 (PVC)。一些细节架构主要包含三个部分：分词器（tokenizer）自回归 Transformer（AR Transformer）潜在流匹配模型（包含流匹配模块和 Flow-VAE 模块）文本分词器采用字节对编码 (BPE)，而音频分词器则采用 Encoder-VQ-Decoder 架构 (Van Den Oord 等人，2017; Betker，2023) 对梅尔谱图进行 25 个 token/秒的量化，并使用连接时序分类 (CTC) 监督。该语音分词器实现了高压缩率，同时有效地保留了丰富的声学细节和语义信息。...

本文来自于晚点 2025年 1 月对 MiniMax 创始人兼 CEO 闫俊杰的访谈，以下是闫俊杰的一些核心认知。闫俊杰认为，AI 大模型的发展逻辑与移动互联网不同，不应依赖用户反馈来提升模型能力。他指出，更好的模型可以导向更好的应用，但更好的应用和更多用户并不会导向更好的模型。他强调，技术驱动是 AI 公司发展的核心，并认为开源能加速技术进化。他认为，AI 领域需要清晰定义模型能力分级，并通过技术手段逼近定义好的指标，而不是通过大量的 AB 测试和用户反馈来迭代模型。 MiniMax 的技术选择 MiniMax 发布了首个开源模型 MiniMax-01 系列，该模型在 4000 亿以上参数的大模型中，首次使用了线性注意力机制新架构，能高效处理 400 万 token 上下文。闫俊杰认为 long-context（长上下文）是 Agent（智能体）的重要能力。MiniMax 没有第一批跟进 OpenAI o 系列模型，而是选择了线性注意力机制，这与行业共识不同。对用户和产品的看法闫俊杰认为，用户数量并非 AI 竞争的核心，不应使用移动互联网的产品方法论来思考 AI 产品。他认为，AI 产品的重点在于模型能力的提升，而非用户反馈。他指出，“ChatGPT” 的 DAU 是 “Claude” 的 50 倍到 100 倍，但它们的模型其实差不多，这说明智能水平的提升，没那么依赖很多用户。开源的意义闫俊杰认为，开源能加速技术进化，并有助于建立技术品牌。他表示，MiniMax 开源模型不会藏更好的东西，因为所有模型一年之后都会落后。他认为，技术品牌之所以重要，本质也是因为这个行业最大的驱动力是技术进化。对行业误区的反思闫俊杰指出，中国大部分公司，包括创业公司和大厂，都在用做推荐系统的方法来做大模型产品，这是一种误区。他认为，应该非常清晰地定义模型能力分级，然后搞清楚每一代提升，需要什么样的算法、数据和推理过程，通过技术手段来逼近定义好的指标。技术驱动的体现 MiniMax 在产品开发中，优先考虑算法上限高的功能，即使这会影响用户体验。例如，海螺视频虽然访问量很高，但页面仍然粗糙，因为 MiniMax 优先考虑算法的进步。对 Agent 的看法闫俊杰认为，Agent 的重要能力在于处理长上下文和多 Agent 之间的协同。他认为，AI 的发展方向是能处理复杂任务，达到专业人士的水平。他认为，Agent 最先落地的场景是 coding 和信息的获取。...

MiniMax

Minimax Speech-02-HD：全球最强 TTS 技术报告深度解读

闫俊杰的核心认知分享：MiniMax 的 AI 进化之路