Lookoncetohear

使用场景在会议中,通过 LookOnceToHear 选择听取特定发言人的声音在嘈杂的公共场所,帮助听力障碍者集中听取对话在音频分析研究中,用于区分和提取多个声...

  • Lookoncetohear

    类别:AI语音识别,AI音频编辑,语音识别,实时处理,智能耳机,交互系统,普通产品,开源,
    官网:https://github.com/vb000/LookOnceToHear 更新时间:2025-08-01 18:12:31
  • 使用场景

    在会议中,通过 LookOnceToHear 选择听取特定发言人的声音

    在嘈杂的公共场所,帮助听力障碍者集中听取对话

    在音频分析研究中,用于区分和提取多个声源

    产品特色

    用户通过看向目标说话者几秒钟来选择想要听到的声音

    使用 Scaper 工具包合成生成音频混合

    提供自包含的数据集和训练用的 .jams 规范文件

    支持实时语音提取和目标语音听力模型的评估

    提供了模型的检查点,方便用户进行训练和评估

    适用于嘈杂环境下的语音识别和提取

    使用教程

    下载并解压提供的 .zip 文件到 data/ 目录

    运行命令以开始训练过程

    使用 Scaper 的 generate_from_jams 函数在 .jams 规范文件上生成音频混合

    下载并加载目标语音听力模型的检查点进行评估

    根据需要调整模型参数以优化性能

    在实际应用中,用户只需看向目标说话者即可开始语音提取