视频编辑 研究工具 自监督学习 视听对齐 语义分割 跨模态检索 普通产品
使用场景在自然语言处理领域,用于理解视频中的对话内容和场景。在视频内容分析中,用于识别和定位视频中的关键声音和物体。在多媒体检索系统中,用于改善基于声音和语言的...