Ultravox V0 4 1 Llama 3 1 8b

使用场景- 作为语音代理,回答用户问题。- 进行语音到语音的翻译,帮助跨语言沟通。- 分析语音指令,执行特定任务。产品特色- 多模态输入处理:同时处理语音和文本...

  • Ultravox V0 4 1 Llama 3 1 8b

    类别:语音识别,语音翻译,多模态模型,大型语言模型,普通产品,开源,
    官网:https://huggingface.co/fixie-ai/ultravox-v0_4_1-llama-3_1-8b 更新时间:2025-08-02 09:48:36
  • 使用场景

    - 作为语音代理,回答用户问题。

    - 进行语音到语音的翻译,帮助跨语言沟通。

    - 分析语音指令,执行特定任务。

    产品特色

    - 多模态输入处理:同时处理语音和文本输入。

    - 特殊标记处理:使用<|audio|>标记处理音频输入。

    - 文本生成:基于合并的嵌入生成输出文本。

    - 语音到语音翻译:适用于不同语言间的语音翻译。

    - 语音分析:分析语音内容并生成相关文本。

    - 未来支持声学音频标记生成:计划扩展功能以支持声学音频标记生成。

    - 知识蒸馏损失训练:通过知识蒸馏损失训练模型以匹配基于文本的Llama骨干网络的logits。

    使用教程

    1. 安装必要的库:pip install transformers peft librosa。

    2. 导入库:import transformers, numpy as np, librosa。

    3. 加载模型:pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)。

    4. 加载音频文件:audio, sr = librosa.load(path, sr=16000)。

    5. 准备输入:定义系统角色和内容,构建turns列表。

    6. 调用模型:pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)。