使用场景
• 用轻柔的声音引导用户放松
• 用激动的声音解说足球比赛
• 用哀怨的声音讲一个鬼故事
产品特色
• 语音识别:将连续的语音输入转化为离散的token
• 语音合成:将离散化的语音token转化为连续的语音输出
• 情感控制:根据用户的指令要求改变语音的情感、语调、语速、方言等属性
• 流式推理:支持流式交替输出文本和语音两个模态的内容,降低端到端对话延迟
• 预训练能力:在数百万小时音频和数千亿token的音频文本交错数据上进行预训练,具备强大的音频理解和建模能力
• 多语言支持:能够直接理解和生成中英文语音,进行实时语音对话
使用教程
1. 首先下载仓库:使用git命令克隆项目到本地
2. 安装依赖:根据项目中的requirements.txt文件安装所需的Python依赖
3. 下载模型:根据项目指南下载所需的语音模型和分词器
4. 启动模型服务:运行model_server.py脚本启动模型服务
5. 启动Web Demo:运行web_demo.py脚本启动Web Demo服务
6. 访问Web Demo:在浏览器中访问http://127.0.0.1:8888来使用Web Demo