Skip to content
/CreatorBox/images/jms_logo.png

语音合成 🎧

字数
872 字
阅读
4 分钟

丰富的语音库与定制选项,提供个性化配音体验,满足创作需求,实时试听确保创作精准

dubb_tts

调试模式

上传视频后,点击 执行 开始,此时 调试模式 开启后会中断后续执行

log
2025-04-18 04:55:14.045 | INFO 12672 trans_.py:43 - language: zh-CN
2025-04-18 04:55:14.045 | WARNING 12672 trans_.py:50 - skipping translated
2025-04-18 04:55:14.046 | INFO 12672 tts_.py:423 - Loaded transcription data from: webapp/dubb/test/zh/test.json
2025-04-18 04:55:14.050 | WARNING 12672 tts_.py:452 - delete tts file : webapp/dubb/test/zh/tts/00_27c51c.wav
...
2025-04-18 04:55:14.067 | WARNING 12672 tts_.py:452 - delete tts file : webapp/dubb/test/zh/tts/08_9ebe29.wav
2025-04-18 04:55:17.559 | INFO 12672 cbaudio.py:331 - Generated trans audio file: webapp/dubb/webapp/dubb/test/tts/test.wav 30.571

查看内容

通过点击右下角图标 可以查看到当前识别的内容

手动修改

dubb_tts_code

通过修改不同 属性 的文本值,点击右上角图标 保存修改内容

提供商选择

dubb_tts_model

模型支持语言推荐指数
Edge-TTS100+🔥🔥🔥🔥🔥
Azure-TTS100+🔥🔥🔥🔥🔥
ElevenLabs100+🔥🔥🔥🔥
VoxCPM1.52🔥🔥🔥🔥🔥
IndexTTS22🔥🔥🔥🔥🔥
CosyVoice39🔥🔥🔥🔥
GPT-SoVITS44🔥🔥🔥🔥

如何选择

注意

  • 建议普通用户使用 Azure-TTSEdge-TTS,其合成速度较快
  • VoxCPM1.5IndexTTS2CosyVoice3GPT-SoVITS4 对设备要求较高,低性能设备合成效率较低;
  • 另外,你也可以通过 ColabKaggle 远程部署来提高处理速度;

配置

不同的模型,使用的参数也所不同,这章节涉及面的非常的多,后续会逐步补充

Edge-TTS

待补充

Azure-TTS

需要配置 <AZURE_API_KEY> 环境变量,格式:<REGION>-<KEY>,如AZURE_API_KEY=eastus-abcdefghijklmnopqrstuvwxyz123456

ElevenLabs

需要配置 <GENAIPRO_API_KEY> 环境变量

VoxCPM1.5

待补充

IndexTTS2

待补充

CosyVoice3

待补充

GPT-SoVITS4

待补充

配置选项

性別

切换性别会改变音色,帮助用户快速找到理想的语音

语音

dubb_tts_voices_etts

根据不同模型和视频,提供的配音选择会有所不同。配音分为 3 种类型:内置视频用户,用户可以自定义音色或自己录制声音

音量

控制声音音量输出,支持对多说话人设置音量

语速

语速是合成语音的重要参数。不同语言、不同场景下,语速的选择对结果有较大影响

log
2025-04-18 07:08:59.473 | WARNING 11760 cbaudio.py:284 - idx_03.wav 06000-07757, 1.757s, speed up 1.220.
2025-04-18 07:09:00.092 | WARNING 11760 cbaudio.py:284 - idx_08.wav 16199-19406, 3.207s, speed up 1.454.
2025-04-18 07:09:00.441 | WARNING 11760 cbaudio.py:284 - idx_12.wav 24561-26832, 2.271s, speed up 1.235.
2025-04-18 07:09:00.926 | WARNING 11760 cbaudio.py:284 - idx_16.wav 33059-35588, 2.529s, speed up 1.277.

注意

在语音合成过程中将打印出语速值。该值应当接近 1,并尽量不要超过 1.2 否则可能引起声调失真;如果无法避免可以手动调整

试听

dubb_tts_demo

用户可输入自定义文本,进行语音合成试听,帮助确认配音效果,基础 -> 语言 可以切换试听文本语言;试听记录会保存到配音列表

配音列表

展示当前可用的配音音色信息,支持试听、删除、上下移动等操作。

dubb_tts_speaker_list

操作说明

  • 点击 试听 可立即播放该语音片段
  • 点击 删除 将移除该语音
  • 使用 上移 / 下移 控制语音顺序

注意

例:用户上传 test.mp4,标识 001

  • 单人配音 说话人 默认使用 0

  • 多人配音 说话人test_001.json 数据中的 spk 保持一致