Parakeet Tdt 0.6b V2

使用场景用于语音助手中的实时转录。在教育应用中实现课堂讲座的文字记录。用于会议记录和摘要生成的自动转录工具。产品特色准确的单词级时间戳预测:为每个单词提供详细的...

  • Parakeet Tdt 0.6b V2

    类别:语音识别,开发与工具,自动语音识别,深度学习,NVIDIA,机器学习,语音转文本,普通产品,开源,
    官网:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 更新时间:2025-08-02 10:52:13
  • 使用场景

    用于语音助手中的实时转录。

    在教育应用中实现课堂讲座的文字记录。

    用于会议记录和摘要生成的自动转录工具。

    产品特色

    准确的单词级时间戳预测:为每个单词提供详细的时间戳信息。

    自动标点和大小写:增强转录文本的可读性。

    对口语数字和歌词的强大性能:能够准确转录数字和歌词内容。

    支持 16kHz 音频输入:兼容主流音频格式,如.wav 和.flac。

    能够处理高达 24 分钟的音频:一次性转录长音频,提升效率。

    支持在多种 NVIDIA GPU 上运行:优化性能,提供更快的训练和推理速度。

    可用于多种应用场景:适合对话式 AI、语音助手、转录服务、字幕生成等。

    使用教程

    安装 NVIDIA NeMo 工具包,确保安装了最新的 PyTorch 版本。

    通过以下命令下载模型:import nemo.collections.asr as nemo_asr; asr_model = nemo_asr.models.ASRModel.from_pretrained (model_name='nvidia/parakeet-tdt-0.6b-v2')

    准备 16kHz 的音频文件,支持.wav 和.flac 格式。

    调用模型进行转录,使用:output = asr_model.transcribe ([' 音频文件路径 '])。

    如果需要时间戳,添加参数:output = asr_model.transcribe ([' 音频文件路径 '], timestamps=True)。

    根据需要处理转录输出,进行文本分析或存储。