MOSS TTSD

使用场景通过 MOSS-TTSD 生成的播客音频,提升内容的可听性。用于在线教育平台的交互式语音回答系统。在娱乐应用中,为角色对话添加真实的声音表现。产品特色支...

  • MOSS TTSD

    类别:文本转声音,语音克隆,语音合成,播客制作,对话 AI,开源,双语,普通产品,开源,
    官网:https://github.com/OpenMOSS/MOSS-TTSD 更新时间:2025-08-02 16:33:10
  • 使用场景

    通过 MOSS-TTSD 生成的播客音频,提升内容的可听性。

    用于在线教育平台的交互式语音回答系统。

    在娱乐应用中,为角色对话添加真实的声音表现。

    产品特色

    支持中英文的对话语音生成。

    实现零 - shot 两人语音克隆,准确切换发言者。

    长时间的语音生成,适合 AI 播客制作。

    高表达力的对话语音,接近人类自然对话的音色。

    提供本地和 API 两种推理方式,便于用户使用。

    支持批处理工具,能同时处理多个生成请求。

    包括播客生成工具,能将长文本或网页内容转为音频。

    提供简单的微调脚本,便于用户自定义模型。

    使用教程

    安装所需的依赖库并设置 Python 环境。

    下载并准备 XY Tokenizer 模型权重。

    准备 JSONL 格式的输入文件,包含对话脚本和发言者音频参考。

    运行推理脚本,指定输入文件路径和输出目录。

    查看生成的音频文件,进行后续处理或发布。