Videoprism

AI视频生成 AI模型视频理解编码器 transformer 模型普通产品

产品特色- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高- 采用两阶段预训练策略,对比学习匹配视频和文本,...

Videoprism

类别：AI视频生成,AI模型,视频理解,编码器,transformer,模型,普通产品

官网:https://research.google/pubs/pub52846/ 更新时间：2025-08-01 17:17:48
产品特色
- 预训练数据包含3600万高质量视频-文本对,5820万带嘈杂文本的视频剪辑,数据规模最大、质量最高 - 采用两阶段预训练策略,对比学习匹配视频和文本,预测遮蔽的视频块 - 一个固定模型直接适配下游任务,无需调参和微调 - 在30个视频理解基准上刷新最优记录

点击加载更多