Llava_创作_未来号

Llava

类别：AI模型,AI聊天机器人,多模态,聊天,科学问答,视觉编码器,GPT-4,普通产品,开源,

官网:https://llava-vl.github.io/ 更新时间：2025-08-01 15:16:16
使用场景
LLaVA可以回答关于蒙娜丽莎的问题，包括画作的作者、画作的特点和保存在哪里等。
LLaVA可以进行光学字符识别（OCR），并提供有关识别结果的详细描述。
LLaVA可以进行视觉推理，例如在OpenAI GPT-4技术报告中的两个示例。
产品特色
将视觉编码器和Vicuna相结合，实现多模态聊天和科学问答
使用语言-only GPT-4生成多模态语言-图像指令跟随数据
通过两个阶段的指令调整过程，实现预训练和微调
在视觉聊天和科学问答方面取得了令人印象深刻的表现
提供数据、代码和检查点的开源

Llava