语音合成 🎧
字数
872 字
阅读
4 分钟
丰富的语音库与定制选项,提供个性化配音体验,满足创作需求,实时试听确保创作精准

调试模式
上传视频后,点击 执行 开始,此时 调试模式 开启后会中断后续执行
log
2025-04-18 04:55:14.045 | INFO 12672 trans_.py:43 - language: zh-CN
2025-04-18 04:55:14.045 | WARNING 12672 trans_.py:50 - skipping translated
2025-04-18 04:55:14.046 | INFO 12672 tts_.py:423 - Loaded transcription data from: webapp/dubb/test/zh/test.json
2025-04-18 04:55:14.050 | WARNING 12672 tts_.py:452 - delete tts file : webapp/dubb/test/zh/tts/00_27c51c.wav
...
2025-04-18 04:55:14.067 | WARNING 12672 tts_.py:452 - delete tts file : webapp/dubb/test/zh/tts/08_9ebe29.wav
2025-04-18 04:55:17.559 | INFO 12672 cbaudio.py:331 - Generated trans audio file: webapp/dubb/webapp/dubb/test/tts/test.wav 30.571查看内容
通过点击右下角图标 可以查看到当前识别的内容
手动修改

通过修改不同 属性 的文本值,点击右上角图标 保存修改内容
提供商选择

| 模型 | 支持语言 | 推荐指数 |
|---|---|---|
| Edge-TTS | 100+ | 🔥🔥🔥🔥🔥 |
| Azure-TTS | 100+ | 🔥🔥🔥🔥🔥 |
| ElevenLabs | 100+ | 🔥🔥🔥🔥 |
| VoxCPM1.5 | 2 | 🔥🔥🔥🔥🔥 |
| IndexTTS2 | 2 | 🔥🔥🔥🔥🔥 |
| CosyVoice3 | 9 | 🔥🔥🔥🔥 |
| GPT-SoVITS4 | 4 | 🔥🔥🔥🔥 |
如何选择
注意
- 建议普通用户使用
Azure-TTS、Edge-TTS,其合成速度较快 VoxCPM1.5、IndexTTS2、CosyVoice3、GPT-SoVITS4对设备要求较高,低性能设备合成效率较低;- 另外,你也可以通过
Colab或Kaggle远程部署来提高处理速度;
配置
不同的模型,使用的参数也所不同,这章节涉及面的非常的多,后续会逐步补充
Edge-TTS
待补充
Azure-TTS
需要配置 <AZURE_API_KEY> 环境变量,格式:<REGION>-<KEY>,如AZURE_API_KEY=eastus-abcdefghijklmnopqrstuvwxyz123456
ElevenLabs
需要配置 <GENAIPRO_API_KEY> 环境变量
VoxCPM1.5
待补充
IndexTTS2
待补充
CosyVoice3
待补充
GPT-SoVITS4
待补充
配置选项
性別
切换性别会改变音色,帮助用户快速找到理想的语音
语音

根据不同模型和视频,提供的配音选择会有所不同。配音分为 3 种类型:内置、视频、用户,用户可以自定义音色或自己录制声音
音量
控制声音音量输出,支持对多说话人设置音量
语速
语速是合成语音的重要参数。不同语言、不同场景下,语速的选择对结果有较大影响
log
2025-04-18 07:08:59.473 | WARNING 11760 cbaudio.py:284 - idx_03.wav 06000-07757, 1.757s, speed up 1.220.
2025-04-18 07:09:00.092 | WARNING 11760 cbaudio.py:284 - idx_08.wav 16199-19406, 3.207s, speed up 1.454.
2025-04-18 07:09:00.441 | WARNING 11760 cbaudio.py:284 - idx_12.wav 24561-26832, 2.271s, speed up 1.235.
2025-04-18 07:09:00.926 | WARNING 11760 cbaudio.py:284 - idx_16.wav 33059-35588, 2.529s, speed up 1.277.注意
在语音合成过程中将打印出语速值。该值应当接近 1,并尽量不要超过 1.2 否则可能引起声调失真;如果无法避免可以手动调整
试听

用户可输入自定义文本,进行语音合成试听,帮助确认配音效果,基础 -> 语言 可以切换试听文本语言;试听记录会保存到配音列表
配音列表
展示当前可用的配音音色信息,支持试听、删除、上下移动等操作。

操作说明
- 点击
试听可立即播放该语音片段 - 点击
删除将移除该语音 - 使用
上移/下移控制语音顺序
注意
例:用户上传 test.mp4,标识 001 时
单人配音
说话人默认使用0多人配音
说话人与test_001.json数据中的spk保持一致
