Mini Omni_音频

Mini Omni

类别：AI模型,AI语音合成,多模态,语音识别,语音合成,流式音频,开源,普通产品,开源,

官网:https://github.com/gpt-omni/mini-omni 更新时间：2025-08-01 18:59:34
使用场景
开发者可以利用Mini-Omni创建一个能够进行实时语音对话的聊天机器人。
研究人员可以使用Mini-Omni进行语音识别和语音合成技术的实验和研究。
教育机构可以利用Mini-Omni开发语言学习应用，提供实时语音反馈。
产品特色
实时语音到语音对话功能，无需额外ASR或TTS模型。
边思考边说话，能够同时生成文本和音频。
支持流式音频输出能力。
提供'Audio-to-Text'和'Audio-to-Audio'批量推理以提升性能。
支持创建新的conda环境并安装所需包。
通过命令行快速启动交互式演示。
支持本地测试，运行预设的音频样本和问题。
使用教程
创建一个新的conda环境并激活。
通过git克隆Mini-Omni的代码库到本地。
安装所需的Python包。
启动服务器，运行streamlit或gradio演示。
进行本地测试，运行预设的音频样本和问题。

Mini Omni