AI模型 研究工具 人工智能 多模态 图像描述 音频描述 视频描述 预训练模型 普通产品 开源
使用场景使用MILS为MS-COCO数据集中的图像生成描述为Clotho数据集中的音频生成描述为MSR-VTT数据集中的视频生成描述产品特色支持图像、音频和视频...