语音合成 🎧

丰富的语音库与定制选项，提供个性化配音体验，满足创作需求，实时试听确保创作精准

调试模式

上传视频后，点击 执行 开始，此时 调试模式 开启后会中断后续执行

log

2025-04-18 04:55:14.045 | INFO 12672 trans_.py:43 - language: zh-CN
2025-04-18 04:55:14.045 | WARNING 12672 trans_.py:50 - skipping translated
2025-04-18 04:55:14.046 | INFO 12672 tts_.py:423 - Loaded transcription data from: webapp/temp/test/test_001.json
2025-04-18 04:55:14.050 | WARNING 12672 tts_.py:452 - delete tts file : webapp/temp/test/tts/00_27c51c.wav
...
2025-04-18 04:55:14.067 | WARNING 12672 tts_.py:452 - delete tts file : webapp/temp/test/tts/08_9ebe29.wav
2025-04-18 04:55:17.559 | INFO 12672 cbaudio.py:331 - Generated trans audio file: webapp/temp/test/test_001.wav 30.571

查看内容

通过点击右下角图标可以查看到当前识别的内容

手动修改

通过修改不同 属性 的文本值，点击右上角图标保存修改内容

提供商选择

模型	特性	支持语言	推荐指数
Edge-TTS	`速度极快`，适合低性能设备，合成速度快	100+	🔥🔥🔥🔥🔥
E2F5-TTS	`质量较高`，适合中高性能设	2（中英）	🔥🔥🔥
Coqui-TTS	`质量较高`，适合中高性能设备，支持小语种	17+	🔥🔥🔥🔥
CosyVoice2	`质量高`，适合高性能设备，支持自定义指令	4（中英日韩）	🔥🔥🔥🔥🔥

说明

如何选择❓

CosyVoice2、E2F5-TTS、Coqui-TTS 对设备要求较高，低性能设备合成效率较低；建议普通用户使用 EDGE-TTS，其合成速度较快，可以先通过它完成其他模块的参数调整，再使用其他替换配音。对于设备性能较强的用户，或者希望优化配音质量的用户，建议选择 EDGE-TTS。另外，你也可以通过 Google Colab 远程部署来提高处理速度；

参数

不同的模型，使用的参数也所不同，这章节涉及面的非常的多，后续会逐步补充

Edge-TTS

待补充

E2F5-TTS

采样步数默认值8，区间在[4,64]，影响推理精度和速度。步数越多，速度越慢，音质可能越好

Coqui-TTS

列出3个可能会用到的模型

tts_models/multilingual/multi-dataset/xtts_v2 支持17种

voice_conversion_models/multilingual/multi-dataset/openvoice_v2 支持小语种，音色转换

voice_conversion_models/multilingual/multi-dataset/glow-tts 支持单调对齐（不支持中文）

CosyVoice2

用户可以自定义指示，使合成语音更加个性化，更多示例，当前支持以下3种类型:

用四川说这句话
用四川话说
四川话

配置选项

性別

切换性别会改变音色，帮助用户快速找到理想的语音

语音

根据不同模型和视频，提供的配音选择会有所不同。配音分为3种类型：内置、视频、用户，其中用户可自定义音色或录制自己的声音

提示

用户自定义《音色数据》章节

语速

语速是合成语音的重要参数。不同语言、不同场景下，语速的选择对效果有较大影响

log

2025-04-18 07:08:59.473 | WARNING 11760 cbaudio.py:284 - idx_03.wav 06000-07757, 1.757s, speed up 1.220.
2025-04-18 07:09:00.092 | WARNING 11760 cbaudio.py:284 - idx_08.wav 16199-19406, 3.207s, speed up 1.454.
2025-04-18 07:09:00.441 | WARNING 11760 cbaudio.py:284 - idx_12.wav 24561-26832, 2.271s, speed up 1.235.
2025-04-18 07:09:00.926 | WARNING 11760 cbaudio.py:284 - idx_16.wav 33059-35588, 2.529s, speed up 1.277.

注意

在语音合成过程中将打印出语速值。该值应当接近 1，并尽量不要超过 1.2 否则可能引起声调失真；如果无法避免可以手动调整

试听

用户可输入自定义文本，进行语音合成试听，帮助确认配音效果，切换 基础 -> 语言，可以切换试听文本语言；试听记录会保存到配音列表

配音列表

展示当前可用的配音音色信息，支持试听、删除、上下移动等操作。

操作说明

点击 试听 可立即播放该语音片段
点击 删除 将移除该语音
使用 上移 / 下移 控制语音顺序

注意

例：用户上传 test.mp4，标志 001 时

1.单人配音 说话人 默认使用 0
2.多人配音 说话人 与 test_001.json 数据中的 spk 保持一致

语音合成 🎧 ​

调试模式 ​

查看内容 ​

手动修改 ​

提供商选择 ​

说明 ​

参数 ​

Edge-TTS ​

E2F5-TTS ​

Coqui-TTS ​

CosyVoice2 ​

配置选项 ​

性別 ​

语音 ​

语速 ​

试听 ​

配音列表 ​