交大开源的语音生成模型 F5-TTS

见贤思齐 · 发表于 2024-12-9 14:59:59

上海交通大学开源了一个比较厉害的语音生成模型 F5-TTS

主要功能如下：零样本声音克隆：无需额外训练即可生成特定人的语音。合成语音的速度控制：基于指定的总时长灵活调节语速。情感表现控制：可自定义语音的情感表达效果。长文本合成：支持长篇文章或段落的连续语音合成。中英文多语言支持：同时支持中文和英文的语音合成。大规模训练：基于超过10万小时的数据进行模型训练。商用支持：合成语音可用于商业应用场景。

F5-TTS通过创新的架构设计和采样策略，在文本到语音合成任务中取得了显著进展，特别是在零样本生成和多语言支持方面表现出色。系统简化了传统TTS模型的复杂设计，同时保持了高质量的语音输出和灵活的控制能力。论文地址：

https://arxiv.org/abs/2410.06885Demo地址：

https://huggingface.co/spaces/mrfakename/E2-F5-TTS项目地址：

https://github.com/SWivid/F5-TTS模型下载：

https://huggingface.co/SWivid/F5-TTS论文主要内容简介：F5-TTS: 基于流匹配的文本到语音系统作者与机构:Yushen Chen, Zhikang Niu, Ziyang Ma, Keqi Deng, Chunhui Wang, Jian Zhao, Kai Yu, Xie Chen上海交通大学, 剑桥大学, 吉利汽车研究院F5-TTS系统特点:全非自回归文本到语音系统基于流匹配和扩散变换器无需复杂设计如持续时间模型、文本编码器和音素对齐文本输入简单填充到与输入语音相同长度主要改进:使用ConvNeXt优化文本表示提出Sway Sampling策略提高性能和效率性能:训练速度快推理实时因子(RTF)达0.15在100K小时多语言数据集上训练展现高度自然和富有表现力的零样本能力方法:模型架构:主干: 潜在扩散变换器(DiT)使用零初始化自适应层归一化(adaLN-zero)利用ConvNeXt V2块增强对齐能力输入处理:字符序列首先通过ConvNeXt块位置嵌入:流步骤: 正弦位置嵌入连接的输入序列: 卷积位置嵌入自注意力: 旋转位置嵌入(RoPE)扩展字符序列: 绝对正弦位置嵌入采样策略:训练: 均匀采样流步骤推理: 非均匀采样(Sway采样)实验设置:数据集:训练: Emilia数据集(95K小时英语和中文)测试: LibriSpeech-PC, Seed-TTS (英语和中文)训练细节:120万次更新, 8个NVIDIA A100 80G GPUAdamW优化器, 峰值学习率7.5e-5模型配置:F5-TTS: 335.8M参数对比E2 TTS: 333.2M参数实验结果:主要性能

ibriSpeech-PC test-clean:WER: 2.42-2.53SIM-o: 0.66RTF: 0.15-0.31Seed-TTS test-en/zh:WER: 1.56-1.83SIM-o: 0.67-0.76CMOS: 0.21-0.31SMOS: 3.83-3.89结果分析:零样本生成表现出色Sway Sampling策略显著提高性能与基线模型相比WER和SIM-o表现优异总结:F5-TTS通过创新的架构设计和采样策略，在文本到语音合成任务中取得了显著进展，特别是在零样本生成和多语言支持方面表现出色。系统简化了传统TTS模型的复杂设计，同时保持了高质量的语音输出和灵活的控制能力。

		自动登录	找回密码
密码			会员注册