AI模型 多模态模型 多模态 大型语言模型 视觉问答 图像描述 自然语言处理 普通产品 开源
使用场景使用InternVL2_5-1B-MPO生成对一组图像的详细描述基于视频帧提取关键信息,生成视频内容摘要在视觉问答任务中,根据图像内容回答具体问题产品特...