Minmo

使用场景与MinMo用英语聊天讨论电影。用中文与MinMo聊天,同时控制MinMo的方言(如四川话、粤语等)。用中文与MinMo聊天,指示MinMo进行情感互动...

  • Minmo

    类别:语音识别,语音转文本,语音交互,多模态,大型语言模型,人工智能,普通产品,开源,
    官网:https://funaudiollm.github.io/minmo/ 更新时间:2025-08-02 10:16:28
  • 使用场景

    与MinMo用英语聊天讨论电影。

    用中文与MinMo聊天,同时控制MinMo的方言(如四川话、粤语等)。

    用中文与MinMo聊天,指示MinMo进行情感互动和角色扮演。

    产品特色

    在语音对话、多语言语音识别、多语言语音翻译、情感识别、说话人分析和音频事件分析等基准测试中达到当前最先进的性能。

    支持端到端的语音交互,根据用户指令控制生成音频的情感、方言和说话风格,以及模仿特定的声音,生成效率超过90%。

    支持全双工语音交互,实现用户和系统之间的平滑多轮对话,防止背景噪音的干扰。语音到文本延迟约为100毫秒,全双工延迟理论上约为600毫秒,实际约为800毫秒。

    提出了一种新颖且简单的语音解码器,在语音生成方面超越了以往的模型。

    通过多个阶段的训练,包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐,克服了以往对齐多模态模型的主要限制。

    使用教程

    1. 访问MinMo的官方网站或集成到支持的应用程序中。

    2. 选择所需的语音交互模式,如语音对话、语音翻译等。

    3. 根据提示发出语音指令或进行语音输入。

    4. 观察MinMo的语音响应,根据需要调整指令或参数。

    5. 利用MinMo的指令控制功能,定制语音输出的情感、方言和语速等细节。