Mmstar

使用场景研究人员可以使用MMStar评估自己训练的视觉语言模型在不同视觉语言任务上的表现。模型开发者可以通过MMStar发现自己模型存在的数据泄露问题,并采取相...

  • Mmstar

    类别:AI模型评测,AI学术研究,视觉语言模型,基准测试,多模态,人工审查,数据泄露,评估指标,普通产品,开源,
    官网:https://mmstar-benchmark.github.io/ 更新时间:2025-08-01 17:37:20
  • 使用场景

    研究人员可以使用MMStar评估自己训练的视觉语言模型在不同视觉语言任务上的表现。

    模型开发者可以通过MMStar发现自己模型存在的数据泄露问题,并采取相应措施。

    基准测试的结果可以为进一步改进现有视觉语言模型提供指导和启发。

    产品特色

    包含1500个高质量视觉语言样本

    覆盖6个核心能力和18个细分维度

    人工审查确保视觉依赖性和最小化数据泄露

    提出多模态增益和数据泄露两个新指标

    基准测试16种顶尖视觉语言模型