语音合成 🎧
丰富的语音库与定制选项,提供个性化配音体验,满足创作需求,实时试听确保创作精准
调试模式
上传视频后,点击 执行
开始,此时 调试模式
开启后会中断后续执行
2025-04-18 04:55:14.045 | INFO 12672 trans_.py:43 - language: zh-CN
2025-04-18 04:55:14.045 | WARNING 12672 trans_.py:50 - skipping translated
2025-04-18 04:55:14.046 | INFO 12672 tts_.py:423 - Loaded transcription data from: webapp/temp/test/test_001.json
2025-04-18 04:55:14.050 | WARNING 12672 tts_.py:452 - delete tts file : webapp/temp/test/tts/00_27c51c.wav
...
2025-04-18 04:55:14.067 | WARNING 12672 tts_.py:452 - delete tts file : webapp/temp/test/tts/08_9ebe29.wav
2025-04-18 04:55:17.559 | INFO 12672 cbaudio.py:331 - Generated trans audio file: webapp/temp/test/test_001.wav 30.571
查看内容
通过点击右下角图标 可以查看到当前识别的内容
手动修改
通过修改不同 属性
的文本值,点击右上角图标 保存修改内容
提供商选择
模型 | 特性 | 支持语言 | 推荐指数 |
---|---|---|---|
Edge-TTS | 速度极快 ,适合低性能设备,合成速度快 | 100+ | 🔥🔥🔥🔥🔥 |
E2F5-TTS | 质量较高 ,适合中高性能设 | 2(中英) | 🔥🔥🔥 |
Coqui-TTS | 质量较高 ,适合中高性能设备,支持小语种 | 17+ | 🔥🔥🔥🔥 |
CosyVoice2 | 质量高 ,适合高性能设备,支持自定义指令 | 4(中英日韩) | 🔥🔥🔥🔥🔥 |
说明
如何选择❓
CosyVoice2
、E2F5-TTS
、Coqui-TTS
对设备要求较高,低性能设备合成效率较低;建议普通用户使用 EDGE-TTS
,其合成速度较快,可以先通过它完成其他模块的参数调整,再使用其他替换配音。对于设备性能较强的用户,或者希望优化配音质量的用户,建议选择 EDGE-TTS
。另外,你也可以通过 Google Colab
远程部署来提高处理速度;
参数
不同的模型,使用的参数也所不同,这章节涉及面的非常的多,后续会逐步补充
Edge-TTS
待补充
E2F5-TTS
采样步数默认值8
,区间在[4,64]
,影响推理精度和速度。步数越多,速度越慢,音质可能越好
Coqui-TTS
列出3个可能会用到的模型
tts_models/multilingual/multi-dataset/xtts_v2
支持17种
voice_conversion_models/multilingual/multi-dataset/openvoice_v2
支持小语种,音色转换
voice_conversion_models/multilingual/multi-dataset/glow-tts
支持单调对齐(不支持中文)
CosyVoice2
用户可以自定义指示,使合成语音更加个性化,更多示例,当前支持以下3种类型:
用四川说这句话
用四川话说
四川话
配置选项
性別
切换性别会改变音色,帮助用户快速找到理想的语音
语音
根据不同模型和视频,提供的配音选择会有所不同。配音分为3种类型:内置
、视频
、用户
,其中用户可自定义音色或录制自己的声音
提示
用户自定义 《音色数据》 章节
语速
语速是合成语音的重要参数。不同语言、不同场景下,语速的选择对效果有较大影响
2025-04-18 07:08:59.473 | WARNING 11760 cbaudio.py:284 - idx_03.wav 06000-07757, 1.757s, speed up 1.220.
2025-04-18 07:09:00.092 | WARNING 11760 cbaudio.py:284 - idx_08.wav 16199-19406, 3.207s, speed up 1.454.
2025-04-18 07:09:00.441 | WARNING 11760 cbaudio.py:284 - idx_12.wav 24561-26832, 2.271s, speed up 1.235.
2025-04-18 07:09:00.926 | WARNING 11760 cbaudio.py:284 - idx_16.wav 33059-35588, 2.529s, speed up 1.277.
注意
在语音合成过程中将打印出语速值。该值应当接近 1
,并尽量不要超过 1.2
否则可能引起声调失真;如果无法避免可以手动调整
试听
用户可输入自定义文本,进行语音合成试听,帮助确认配音效果,切换 基础
-> 语言
,可以切换试听文本语言;试听记录会保存到配音列表
配音列表
展示当前可用的配音音色信息,支持试听、删除、上下移动等操作。
操作说明
- 点击
试听
可立即播放该语音片段 - 点击
删除
将移除该语音 - 使用
上移
/下移
控制语音顺序
注意
例:用户上传 test.mp4
,标志 001
时
1.单人配音
说话人
默认使用0
2.多人配音
说话人
与test_001.json
数据中的spk
保持一致