Videoprism

产品特色- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高- 采用两阶段预训练策略,对比学习匹配视频和文本,...

  • Videoprism

    类别:AI视频生成,AI模型,视频理解,编码器,transformer,模型,普通产品
    官网:https://research.google/pubs/pub52846/ 更新时间:2025-08-01 17:17:48
  • 产品特色

    - 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高 - 采用两阶段预训练策略,对比学习匹配视频和文本,预测遮蔽的视频块 - 一个固定模型直接适配下游任务,无需调参和微调 - 在30个视频理解基准上刷新最优记录