Flageval

使用场景研究者使用FlagEval平台对比不同对话模型的性能,以选择最适合自己研究的模型。开发者通过FlagEval评测结果,挑选适合的模型进行聊天机器人的开发...

  • Flageval

    类别:AI模型,研究工具,模型评测,人工智能,大语言模型,多模态模型,开源,闭源,普通产品
    官网:https://flageval.baai.ac.cn/#/leaderboard 更新时间:2025-08-02 10:06:58
  • 使用场景

    研究者使用FlagEval平台对比不同对话模型的性能,以选择最适合自己研究的模型。

    开发者通过FlagEval评测结果,挑选适合的模型进行聊天机器人的开发。

    企业通过FlagEval平台的评测数据,了解当前市场上表现最佳的多模态模型,以应用于产品推荐系统。

    产品特色

    提供大语言模型和多模态模型的评测服务

    支持开源和闭源模型的评测

    提供专项评测,如K12学科测验和金融量化交易评测

    累计查看人数和模型总数的统计

    模型参数规模的分类评测

    主观评测和客观评测两种评测方式

    提供模型的详细信息,包括名称、版本、总分等

    使用教程

    1. 访问FlagEval官方网站:https://flageval.baai.ac.cn/#/leaderboard

    2. 根据需要选择模型类型,如对话模型、视觉语言模型等

    3. 查看不同模型的评测结果,包括总分、参数规模等

    4. 点击感兴趣的模型,查看模型的详细信息,如名称、版本、总分等

    5. 如果需要专项评测,可以点击对应的专项评测链接,如K12学科测验、金融量化交易评测等

    6. 根据评测结果,选择合适的模型进行研究或开发工作

    7. 可以注册账号,提交自己的模型参与评测,或查看更多评测数据和分析