Ultravox V0 4 1 Llama 3 1 8b_创作

Ultravox V0 4 1 Llama 3 1 8b

类别：语音识别,语音翻译,多模态模型,大型语言模型,普通产品,开源,

官网:https://huggingface.co/fixie-ai/ultravox-v0_4_1-llama-3_1-8b 更新时间：2025-08-02 09:48:36
使用场景
- 作为语音代理，回答用户问题。
- 进行语音到语音的翻译，帮助跨语言沟通。
- 分析语音指令，执行特定任务。
产品特色
- 多模态输入处理：同时处理语音和文本输入。
- 特殊标记处理：使用<|audio|>标记处理音频输入。
- 文本生成：基于合并的嵌入生成输出文本。
- 语音到语音翻译：适用于不同语言间的语音翻译。
- 语音分析：分析语音内容并生成相关文本。
- 未来支持声学音频标记生成：计划扩展功能以支持声学音频标记生成。
- 知识蒸馏损失训练：通过知识蒸馏损失训练模型以匹配基于文本的Llama骨干网络的logits。
使用教程
1. 安装必要的库：pip install transformers peft librosa。
2. 导入库：import transformers, numpy as np, librosa。
3. 加载模型：pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)。
4. 加载音频文件：audio, sr = librosa.load(path, sr=16000)。
5. 准备输入：定义系统角色和内容，构建turns列表。
6. 调用模型：pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)。

Ultravox V0 4 1 Llama 3 1 8b