Skip to content

场景模式 📤

多种创作模式随时切换,支持视频配音、翻译、解说等多场景应用,满足不同用户需求

配置选项

视频

  • 本地路径:C:\Users\home\Desktop\test.mp4

  • 网络链接:YoutubeTiktok

TIP

如果网络链接,首次运行会自动下载至 webapp\download 目录

字幕

  • 本地路径:C:\Users\home\Desktop\test.srt

TIP

选填项,如果填写,字幕识别会优先使用此字幕;对于长文本非常有用,极大降低识别时间

语言

默认内置10种语言

locale.json
json
[
  {"Locale": "zh-CN", "Name": "中国", "Country": "China"},
  {"Locale": "en-US", "Name": "美国", "Country": "United States"},
  {"Locale": "en-GB", "Name": "英国", "Country": "United Kingdom"},
  {"Locale": "ja-JP", "Name": "日本", "Country": "Japan"},
  {"Locale": "ko-KR", "Name": "韩国", "Country": "South Korea"},
  {"Locale": "de-DE", "Name": "德国", "Country": "Germany"},
  {"Locale": "fr-FR", "Name": "法国", "Country": "France"},
  {"Locale": "pt-BR", "Name": "巴西", "Country": "Brazil"},
  {"Locale": "es-ES", "Name": "西班牙", "Country": "Spain"},
  {"Locale": "ru-RU", "Name": "俄罗斯", "Country": "Russia"},
]

TIP

切换地区会触发翻译试听文本

模式

配音模式

按照指定对齐方式对视频进行配音,适配不同使用场景,以下是3种策略:

  • 视频:按照视频的长度进行配音,对配音进行加速

    视频时长往往有限,需要在短时间内传达关键信息。对齐通常会根据视频时长对配音进行加速,以便在有限时间内讲述完整的产品特点或品牌故事

  • 音频:按照音频的长度进行配音,剩余长度将定格在最后一帧直到结束

    视频长度不够,配音长度远远大于音频长度;该模式主要配合 Stable Diffusion 后期进行的图填充

  • 自适应:按照一定阈值在合理的区间同时对视频、配音进行加降速

    适合大部分场景

翻译模式

将视频语言翻译成另一种语言,并严格按照 声纹 <-> 字幕 对齐

使用限制,下述情形需要后期人工干预:

    1. 多说话人时,当出现说话重叠
    1. 由于不同语言的语速差异,当出现较为明显的说话时快时慢

重构

示例:用户上传 test.mp4

test.mp4 相关的产物全部删除,等同于重做,请 谨慎 选择,

目录文件

  • 1.在执行过程中所有产生的文件会保存至 webapp\temp\test 目录

  • 2.术语解释,见《目录文件》 章节

标志

示例:用户上传 test.mp4,标志 001

不会覆盖已生成视频、草稿

产物输出

  • 1.草稿目录:{文件名}_{标志}

  • 2.文件格式:{文件名}_{标志}.mp4