持续突破语音壁垒 火山语音团队 2023-08-29 18:22 发表于北京
火山引擎语音合成VTTS2.0版本正式发布,能力再升级! 这是一段由真人和TTS组成的录音,你能听出哪部分是真人、哪部分是合成吗?
(相关资料图)
真人VS PS2 ,火山语音团队,7秒
(点击下方阅读原文按钮,体验更多合成效果!)
VTTS2.0版本采用火山语音团队全新自研的语音合成模型 PortaSpeech 2 (下文简称:PS2),由当下流行的基础模型架构 PortaSpeech原班人马打造。为满足各种业务场景和客户需求,PS2 在第一代模型的基础上,着重对 音质韵律 、 多情感 、 端云能力 以及 克隆 等进行了大规模升级。经评测, PS2合成效果与真人录音相似度高达99.8% ,其中 离线合成不仅支持多情感多风格,品质也与在线合成呈现出高度一致性。
图1:社区开源版 PortaSpeech
离线合成是指用户在无网状态下通过本地设备实时进行语音合成,具备实时性和隐私保护的优势,虽然这种离线方式消除了对网络连接的依赖,用户可以在任何时间、任何地点进行合成,但往往很难与在线合成相媲美。经过深入的训练与优化, PS2 打破传统的单一化低品质的离线效果,具备了与在线合成的品质并具有多情感、多风格能力, 让用户在无网、弱网状态下也能够享受到极致的语音合成体验。
作为业界首个支持多情感多风格的端云一体模型,PS2的端云侧同时兼具“三高”,即高品质、高一致和高性能。 PS2端侧能支持的情感、风格范围非常广泛,包括但不限于开心、悲伤、愉悦、抱歉、撒娇、鼓励等。
离线-多风格多情感 效果展示 |
开心 ,火山语音团队,2秒 |
生气 ,火山语音团队,4秒 |
惊讶 ,火山语音团队,2秒 |
绿茶 ,火山语音团队,5秒 |
撒娇 ,火山语音团队,4秒 |
抱歉 ,火山语音团队,3秒 |
此外基于端云一体的架构设计和生成式蒸馏的训推策略, PS2的端云侧可同时兼具高质量和音质一致性,实现用户在端侧和云侧之间切换时几乎无感知; 并且从各维度充分考虑了用户在不同场景下的需求,确保了端到云的效果在各个环节都能够保持高度一致。实际使用中,会根据用户的操作和网络状态选择最优模型进行语音合成,保障用户在任何环境下都能享受到流畅的语音合成体验。
文字 | 大约29分钟,距离目的地 还有15.7公里 (黑色为在线合成效果,蓝色为离线效果) |
在线切换效果展示 | 离在线切换效果 ,火山语音团队,4秒 |
为了最大程度提升PS2在资源利用率和性能方面的成绩,为用户带来更为稳定和高效的使用体验,火山语音团队在训练阶段,针对不同模型特点采用 Int8 和 fp16 量化训练,有效降低模型占用空间并为将来在多种硬件设备上提供高速推理能力奠定基础;在推理阶段,支持流式推理以降低处理首批数据时的延迟,提升系统响应速度和实时性,为用户带来更流畅的体验。性能评测如下表:
硬件 | A76(骁龙8155 ) [CPU/GPU] | A73 (骁龙660) [CPU/GPU] | A53(rk3562 ) [NPU] |
适用设备 | 车机系统 | 手机、VR眼镜等 | 点读笔等携带式设备 |
首包 | 100ms/100ms | 100ms/100ms | 300ms |
整体链路 rtf | 0.12/0.10 | 0.38/0.25 | 0.25 |
除了多重技术方向的创新升级之外,新晋的PS2模型在云端应用中也展现出了高品质的语音合成能力以及效果。无论是与真人录音相比较,还是与其他语音合成模型进行对比,PS2在各类场景中均有惊艳表现。任意文本内容都可以稳定合成出媲美真人录音的效果,一起来感知PS2合成的魅力吧!
真人原音 | 真人原始录音 ,火山语音团队,9秒 |
合成效果 | PS2 合成效果 ,火山语音团队,9秒 |
火山语音团队是如何实现如此惊艳的效果?
「模型结构升级」模型结构方面,PS2引入了全新的中间声学表征、声学模型和声码器。 相较于从前,PS2根据语音数据本身的特点,使用了更加精细的声学特征HiFiSpec。可以极大保留训练数据的音高、音频等细节信息,提高模型在音质和韵律的生成上限,使生成的语音音质更加清亮、饱满和稳定。
具体来说,PS2的声学模型根据HiFiSpec数据本身的特点,设计了兼具长短时依赖的编解码器,引入了基于隐韵律表征预测的对抗生成式神经网络;同时使用蒙特卡洛采样对隐韵律表征分布进行高精度和高效近似,允许其最大程度还原HiFiSpec的真实分布和多样性,使合成的语音更接近自然状态下的人类声音。声码器方面,PS2优化了音频波形分布拟合目标,同时借助HiFiSpec的高表达性,重现极致音色和音质效果。
图2:火山语音新一代 PortaSpeech 2 模型框架图
「训推范式升级」训推范式方面,PS2推翻了以往语音合成模型预训练和微调的传统范式,转而采用新型自研教师-学生模型训练范式。 为了更好地拟合真实的语音分布,PS2的教师模型会自动根据不同业务场景特性,动态结合类似GPT的上下文学习(In-context learning)和微调学习(finetuning)方法,快速完成新音色、场景和情感的训练。
为了实现极致的模型性能和尺寸,PS2还进一步提出了一种名为“生成式蒸馏”的方案。 即完成训练的教师模型会将它学到的语音数据分布通过分布形状规整和长尾裁剪等方式,将最适用具体业务场景的语音分布传授给学生模型,从而允许学生模型在极小的模型参数下,生成的语音质量和韵律几乎与教师模型无异。此外,学生模型还可以完美继承教师模型的诸多能力,包括多语言和多情感等,可以胜任各种端上和端云混合场景。训练数据方面,除了火山语音内部录制的大量精品数据以外,PS2还使用万小时以上私有版权语音数据,借助高效先进的模型架构和训推范式,可以在仅有少量数据下实现表现力、情感和音色的迁移,满足绝大多数场景需求。
图3:生成式“教师-学生”模型蒸馏
火山语音团队正不断将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,技术能力已成功应用到抖音、剪映、番茄小说等多款国民级产品上,并助力多家行业头部企业实现AI语音能力的应用与拓展。未来火山语音还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。
—END—