GLM 4 Voice_创作

GLM 4 Voice

类别：语音识别,聊天机器人,语音识别,语音合成,实时对话,中英文,端到端模型,普通产品,开源,

官网:https://github.com/THUDM/GLM-4-Voice 更新时间：2025-08-02 09:37:17
使用场景
• 用轻柔的声音引导用户放松
• 用激动的声音解说足球比赛
• 用哀怨的声音讲一个鬼故事
产品特色
• 语音识别：将连续的语音输入转化为离散的token
• 语音合成：将离散化的语音token转化为连续的语音输出
• 情感控制：根据用户的指令要求改变语音的情感、语调、语速、方言等属性
• 流式推理：支持流式交替输出文本和语音两个模态的内容，降低端到端对话延迟
• 预训练能力：在数百万小时音频和数千亿token的音频文本交错数据上进行预训练，具备强大的音频理解和建模能力
• 多语言支持：能够直接理解和生成中英文语音，进行实时语音对话
使用教程
1. 首先下载仓库：使用git命令克隆项目到本地
2. 安装依赖：根据项目中的requirements.txt文件安装所需的Python依赖
3. 下载模型：根据项目指南下载所需的语音模型和分词器
4. 启动模型服务：运行model_server.py脚本启动模型服务
5. 启动Web Demo：运行web_demo.py脚本启动Web Demo服务
6. 访问Web Demo：在浏览器中访问http://127.0.0.1:8888来使用Web Demo

GLM 4 Voice