AI图像检测识别 AI模型 视觉 语言模型 Transformer 多模态 普通产品 开源
使用场景将图片描述成文字回答关于图片的问题理解图片中的文字信息产品特色零样本图像描述视觉问答文本理解图像地标定位多语言支持细粒度图像理解