Llava Mini

使用场景视频内容分析,快速准确理解事件和对象。图像识别,高效识别文本、物体等信息。长视频处理,支持处理分析3小时视频。产品特色仅用1个视觉令牌表示图像,提高图像...

  • Llava Mini

    类别:AI模型,图片生成,"图像理解、视频处理、多模态模型、高效计算、低延迟",普通产品,开源,
    官网:https://github.com/ictnlp/LLaVA-Mini 更新时间:2025-08-02 10:14:45
  • 使用场景

    视频内容分析,快速准确理解事件和对象。

    图像识别,高效识别文本、物体等信息。

    长视频处理,支持处理分析3小时视频。

    产品特色

    仅用1个视觉令牌表示图像,提高图像和视频理解效率。

    计算工作量减少77%,响应延迟降至40毫秒。

    内存使用大幅降低,支持3小时视频处理。

    1个视觉令牌下性能与LLaVA-v1.5相当。

    可在24GB内存GPU硬件上处理超10000帧视频。

    使用教程

    1. 从Hugging Face下载LLaVA-Mini模型。

    2. 运行启动控制器脚本。

    3. 构建LLaVA-Mini的API。

    4. 启动交互界面。

    5. 通过浏览器交互,输入文件提问题。