使用场景
视频内容分析,快速准确理解事件和对象。
图像识别,高效识别文本、物体等信息。
长视频处理,支持处理分析3小时视频。
产品特色
仅用1个视觉令牌表示图像,提高图像和视频理解效率。
计算工作量减少77%,响应延迟降至40毫秒。
内存使用大幅降低,支持3小时视频处理。
1个视觉令牌下性能与LLaVA-v1.5相当。
可在24GB内存GPU硬件上处理超10000帧视频。
使用教程
1. 从Hugging Face下载LLaVA-Mini模型。
2. 运行启动控制器脚本。
3. 构建LLaVA-Mini的API。
4. 启动交互界面。
5. 通过浏览器交互,输入文件提问题。