Llama 3.2 11B Vision

使用场景视觉问题回答（VQA）：用户可以上传图片并询问有关图像的问题，模型会给出答案。文档视觉问题回答（DocVQA）：模型可以理解文档的文本和布局，然后回答有...