使用场景
LLaVA可以回答关于蒙娜丽莎的问题,包括画作的作者、画作的特点和保存在哪里等。
LLaVA可以进行光学字符识别(OCR),并提供有关识别结果的详细描述。
LLaVA可以进行视觉推理,例如在OpenAI GPT-4技术报告中的两个示例。
产品特色
将视觉编码器和Vicuna相结合,实现多模态聊天和科学问答
使用语言-only GPT-4生成多模态语言-图像指令跟随数据
通过两个阶段的指令调整过程,实现预训练和微调
在视觉聊天和科学问答方面取得了令人印象深刻的表现
提供数据、代码和检查点的开源