GLM 4 Voice

使用场景• 用轻柔的声音引导用户放松• 用激动的声音解说足球比赛• 用哀怨的声音讲一个鬼故事产品特色• 语音识别:将连续的语音输入转化为离散的token• 语音...

  • GLM 4 Voice

    类别:语音识别,聊天机器人,语音识别,语音合成,实时对话,中英文,端到端模型,普通产品,开源,
    官网:https://github.com/THUDM/GLM-4-Voice 更新时间:2025-08-02 09:37:17
  • 使用场景

    • 用轻柔的声音引导用户放松

    • 用激动的声音解说足球比赛

    • 用哀怨的声音讲一个鬼故事

    产品特色

    • 语音识别:将连续的语音输入转化为离散的token

    • 语音合成:将离散化的语音token转化为连续的语音输出

    • 情感控制:根据用户的指令要求改变语音的情感、语调、语速、方言等属性

    • 流式推理:支持流式交替输出文本和语音两个模态的内容,降低端到端对话延迟

    • 预训练能力:在数百万小时音频和数千亿token的音频文本交错数据上进行预训练,具备强大的音频理解和建模能力

    • 多语言支持:能够直接理解和生成中英文语音,进行实时语音对话

    使用教程

    1. 首先下载仓库:使用git命令克隆项目到本地

    2. 安装依赖:根据项目中的requirements.txt文件安装所需的Python依赖

    3. 下载模型:根据项目指南下载所需的语音模型和分词器

    4. 启动模型服务:运行model_server.py脚本启动模型服务

    5. 启动Web Demo:运行web_demo.py脚本启动Web Demo服务

    6. 访问Web Demo:在浏览器中访问http://127.0.0.1:8888来使用Web Demo