TTS 对比报告

TTS 对比报告

山海评测引擎 · TTS Eval Studio

测试准备

数据预处理

  1. minimax:不支持低于10s的音频克隆 ,采用了静音帧补帧方式延长至官方api要求的最低克隆时间
  2. elevenlabs、lychee-tts支持任意段音频时长的克隆,故不采用前处理方法 ## 评测结果
数据集 TTS 引擎 SS ES CER
shanhai-tts-zh lychee-tts 0.6651 0.8934 0.0464
shanhai-tts-zh elevenlabs-tts 0.4631 0.8545 0.0478
shanhai-tts-zh minimax-tts 0.7167 0.9144 0.0289

样本试听表

手机上可左右滑动试听表。

# 参考音频 / 文本 推理文本 lychee-tts elevenlabs-tts minimax-tts
1
傅彦城,我没有骗你,傅彦城
Fu Yan Cheng, I didn't lie to you, Fu Yan Cheng!
2
我有幽闭恐惧症
I suffer from claustrophobia!
3
你不能这么对我
You can't treat me like this.
4
小野
Xiao Ye
问题音频
5
为什么不怕大梁太子震怒!
Why not fear the Prince of Daliang's rage!
6
奶奶在这儿呢!
Granny is here!
问题音频
7
那个死女人跑哪去了?
Where the hell is that damned woman?
8
她毁了我的婚礼!
She ruined my wedding!
问题音频
9
睡一个!
Sleep a bit!

结论

  1. minimax 不支持短音频(10s以内),lychee-tts 原生支持短音频。
  2. minimax、elevenlabs 都采用先克隆获取 voice_id 后推理的形式,lychee-tts 后续支持直接根据参考音频 ref-audio 推理(无需额外调用 clone 接口)
  3. 在音频表现方面,对于音质差、时长短的音频,lychee-tts 更为稳定,minimax 存在推理后质量差,elevenlabs-tts 存在推理后音频时长有额外几秒的静音段的问题。