Qwen VL

使用场景将图片描述成文字回答关于图片的问题理解图片中的文字信息产品特色零样本图像描述视觉问答文本理解图像地标定位多语言支持细粒度图像理解