Llava

使用场景LLaVA可以回答关于蒙娜丽莎的问题,包括画作的作者、画作的特点和保存在哪里等。LLaVA可以进行光学字符识别(OCR),并提供有关识别结果的详细描述。...

  • Llava

    类别:AI模型,AI聊天机器人,多模态,聊天,科学问答,视觉编码器,GPT-4,普通产品,开源,
    官网:https://llava-vl.github.io/ 更新时间:2025-08-01 15:16:16
  • 使用场景

    LLaVA可以回答关于蒙娜丽莎的问题,包括画作的作者、画作的特点和保存在哪里等。

    LLaVA可以进行光学字符识别(OCR),并提供有关识别结果的详细描述。

    LLaVA可以进行视觉推理,例如在OpenAI GPT-4技术报告中的两个示例。

    产品特色

    将视觉编码器和Vicuna相结合,实现多模态聊天和科学问答

    使用语言-only GPT-4生成多模态语言-图像指令跟随数据

    通过两个阶段的指令调整过程,实现预训练和微调

    在视觉聊天和科学问答方面取得了令人印象深刻的表现

    提供数据、代码和检查点的开源