使用场景
- 作为语音代理,回答用户问题。
- 进行语音到语音的翻译,帮助跨语言沟通。
- 分析语音指令,执行特定任务。
产品特色
- 多模态输入处理:同时处理语音和文本输入。
- 特殊标记处理:使用<|audio|>标记处理音频输入。
- 文本生成:基于合并的嵌入生成输出文本。
- 语音到语音翻译:适用于不同语言间的语音翻译。
- 语音分析:分析语音内容并生成相关文本。
- 未来支持声学音频标记生成:计划扩展功能以支持声学音频标记生成。
- 知识蒸馏损失训练:通过知识蒸馏损失训练模型以匹配基于文本的Llama骨干网络的logits。
使用教程
1. 安装必要的库:pip install transformers peft librosa。
2. 导入库:import transformers, numpy as np, librosa。
3. 加载模型:pipe = transformers.pipeline(model='fixie-ai/ultravox-v0_4_1-llama-3_1-8b', trust_remote_code=True)。
4. 加载音频文件:audio, sr = librosa.load(path, sr=16000)。
5. 准备输入:定义系统角色和内容,构建turns列表。
6. 调用模型:pipe({'audio': audio, 'turns': turns, 'sampling_rate': sr}, max_new_tokens=30)。