产品特色
- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高 - 采用两阶段预训练策略,对比学习匹配视频和文本,预测遮蔽的视频块 - 一个固定模型直接适配下游任务,无需调参和微调 - 在30个视频理解基准上刷新最优记录
产品特色
- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高 - 采用两阶段预训练策略,对比学习匹配视频和文本,预测遮蔽的视频块 - 一个固定模型直接适配下游任务,无需调参和微调 - 在30个视频理解基准上刷新最优记录