AI图像检测识别 AI模型 视觉 语言模型 Transformer 多模态 普通产品 开源
使用场景将图片描述成文字回答关于图片的问题理解图片中的文字信息产品特色零样本图像描述视觉问答文本理解图像地标定位多语言支持细粒度图像理解
使用场景
将图片描述成文字
回答关于图片的问题
理解图片中的文字信息
产品特色
零样本图像描述
视觉问答
文本理解
图像地标定位
多语言支持
细粒度图像理解