MILS

使用场景使用MILS为MS-COCO数据集中的图像生成描述为Clotho数据集中的音频生成描述为MSR-VTT数据集中的视频生成描述产品特色支持图像、音频和视频...