Omnisensevoice

使用场景会议实时语音转录,生成带有时间戳的会议记录。在线课程内容转写,为学生提供带有时间戳的课程笔记。实时翻译应用,提供快速准确的语音翻译服务。产品特色支持多种...

  • Omnisensevoice

    类别:AI语音识别,AI语音转文本,语音识别,时间戳,多语言支持,GPU加速,开源,普通产品,开源,
    官网:https://github.com/lifeiteng/OmniSenseVoice 更新时间:2025-08-01 19:13:15
  • 使用场景

    会议实时语音转录,生成带有时间戳的会议记录。

    在线课程内容转写,为学生提供带有时间戳的课程笔记。

    实时翻译应用,提供快速准确的语音翻译服务。

    产品特色

    支持多种语言自动检测或指定(自动、中文、英文、粤语、日语、韩语)。

    提供文本归一化选项,可以选择是否进行逆文本归一化处理。

    可以选择在特定的GPU上运行,默认为CPU。

    使用量化模型以加快处理速度。

    提供详细的帮助信息,便于用户理解和使用。

    基准测试功能,可以评估模型性能。

    支持高达50倍的快速处理,同时不牺牲准确性。

    使用教程

    1. 安装OmniSenseVoice模型。

    2. 根据需要设置语言参数,例如:--language zh。

    3. 选择是否进行文本归一化处理,例如:--textnorm woitn。

    4. 指定运行的设备ID,例如:--device-id 0。

    5. 如果需要,可以选择使用量化模型,例如:--quantize。

    6. 运行基准测试,评估模型性能,例如:omnisense benchmark -s -d --num-workers 2 --device-id 0 --batch-size 10 --textnorm woitn --language en benchmark/data/manifests/libritts/libritts_cuts_dev-clean.jsonl。

    7. 查看README文件,了解更多使用细节和配置选项。

    8. 根据具体需求调整参数,进行语音识别任务。