使用场景
用于语音助手中的实时转录。
在教育应用中实现课堂讲座的文字记录。
用于会议记录和摘要生成的自动转录工具。
产品特色
准确的单词级时间戳预测:为每个单词提供详细的时间戳信息。
自动标点和大小写:增强转录文本的可读性。
对口语数字和歌词的强大性能:能够准确转录数字和歌词内容。
支持 16kHz 音频输入:兼容主流音频格式,如.wav 和.flac。
能够处理高达 24 分钟的音频:一次性转录长音频,提升效率。
支持在多种 NVIDIA GPU 上运行:优化性能,提供更快的训练和推理速度。
可用于多种应用场景:适合对话式 AI、语音助手、转录服务、字幕生成等。
使用教程
安装 NVIDIA NeMo 工具包,确保安装了最新的 PyTorch 版本。
通过以下命令下载模型:import nemo.collections.asr as nemo_asr; asr_model = nemo_asr.models.ASRModel.from_pretrained (model_name='nvidia/parakeet-tdt-0.6b-v2')
准备 16kHz 的音频文件,支持.wav 和.flac 格式。
调用模型进行转录,使用:output = asr_model.transcribe ([' 音频文件路径 '])。
如果需要时间戳,添加参数:output = asr_model.transcribe ([' 音频文件路径 '], timestamps=True)。
根据需要处理转录输出,进行文本分析或存储。