M2RAG

使用场景研究人员可以使用M2RAG评估多模态大语言模型在图像描述任务中的性能。开发者可以利用M2RAG提供的代码和数据集,快速复现多模态检索增强生成的实验结果。...

  • M2RAG

    类别:AI模型,研究工具,多模态,检索增强生成,大语言模型,基准测试,图像,问答,事实验证,普通产品,开源,
    官网:https://github.com/NEUIR/M2RAG 更新时间:2025-08-02 10:32:33
  • 使用场景

    研究人员可以使用M2RAG评估多模态大语言模型在图像描述任务中的性能。

    开发者可以利用M2RAG提供的代码和数据集,快速复现多模态检索增强生成的实验结果。

    企业可以基于M2RAG的多模态问答功能,开发智能客服系统,提升用户体验。

    产品特色

    支持多模态任务,包括图像描述、多模态问答、事实验证和图像重排

    提供多模态检索增强指令微调(MM-RAIT)方法,提升模型在多模态上下文学习中的表现

    兼容多种预训练模型,如MiniCPM-V 2.6和Qwen2-VL

    提供完整的数据集和代码实现,方便研究人员复现和扩展实验

    支持零样本和微调两种设置,适用于不同的研究需求

    提供详细的评估指标,用于衡量生成任务的性能

    支持多模态文档检索,通过FAISS等技术实现高效检索

    提供预训练模型的微调脚本,方便用户快速上手

    使用教程

    1. 克隆代码库:`git clone https://github.com/NEUIR/M2RAG`

    2. 安装依赖:根据`requirements.txt`文件安装所需的Python包

    3. 准备数据集:下载M2RAG数据集或按照说明自行构建,并放置在`data`文件夹中

    4. 编码测试集查询和多模态语料库:运行`script/get_embed_test.sh`

    5. 检索最相关的多模态文档:运行`script/retrieval_test.sh`

    6. 使用检索到的文档进行零样本推理:运行`script/inference_cpmv.sh`或`script/inference_qwen.sh`

    7. 对于图像重排任务,使用`script/compute_ppl_minicpmv.sh`或`script/compute_ppl_qwen2vl.sh`进行评估

    8. 使用`src/evaluation`中的脚本评估生成任务的性能