使用场景
与MinMo用英语聊天讨论电影。
用中文与MinMo聊天,同时控制MinMo的方言(如四川话、粤语等)。
用中文与MinMo聊天,指示MinMo进行情感互动和角色扮演。
产品特色
在语音对话、多语言语音识别、多语言语音翻译、情感识别、说话人分析和音频事件分析等基准测试中达到当前最先进的性能。
支持端到端的语音交互,根据用户指令控制生成音频的情感、方言和说话风格,以及模仿特定的声音,生成效率超过90%。
支持全双工语音交互,实现用户和系统之间的平滑多轮对话,防止背景噪音的干扰。语音到文本延迟约为100毫秒,全双工延迟理论上约为600毫秒,实际约为800毫秒。
提出了一种新颖且简单的语音解码器,在语音生成方面超越了以往的模型。
通过多个阶段的训练,包括语音到文本对齐、文本到语音对齐、语音到语音对齐和全双工交互对齐,克服了以往对齐多模态模型的主要限制。
使用教程
1. 访问MinMo的官方网站或集成到支持的应用程序中。
2. 选择所需的语音交互模式,如语音对话、语音翻译等。
3. 根据提示发出语音指令或进行语音输入。
4. 观察MinMo的语音响应,根据需要调整指令或参数。
5. 利用MinMo的指令控制功能,定制语音输出的情感、方言和语速等细节。