Open LLM Leaderboard

这个网站是 Hugging Face 上的一个 Space,名为 Open LLM Leaderboard(开放大语言模型排行榜),由 open-llm-lea...

  • Open LLM Leaderboard

    类别:大模型评测
    官网:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 更新时间:2025-07-28 18:36:05
  • 这个网站是 Hugging Face 上的一个 Space,名为 Open LLM Leaderboard(开放大语言模型排行榜),由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。以下是对其功能和用途的详细介绍:

    网站的主要用途

    Open LLM Leaderboard 旨在解决评估和比较开源大语言模型的难题。由于不同模型的开发者可能会使用不同的测试方法、提示词或数据集,导致性能数据难以直接比较,这个排行榜通过标准化的评估流程,提供可重现的结果,帮助用户区分宣传中的“水分”和模型的真实能力。它广泛服务于机器学习社区,包括研究人员、开发者和普通用户。

    核心功能

    1. 模型排名与评估

      • 网站展示了一个排行榜,列出各种开源大语言模型的性能得分。
      • 评估基于标准化的基准测试(如 MMLU、HellaSwag 等),确保所有模型在相同的条件下(例如相同的问题、相同的提问顺序)进行测试。
      • 用户可以看到每个模型在不同任务上的得分,例如多选题准确率、推理能力等。
    2. 可重现性支持

      • 提供详细的评估数据和方法,用户可以通过给出的代码和工具重现结果。
      • 例如,用户可以使用 Eleuther AI 的 LM Evaluation Harness(一个开源评估框架)运行相同的测试,具体命令和参数也在网站相关文档中提供。
    3. 模型详细信息

      • 点击模型名称后的特定图标(如 📄),可以查看该模型的输入输出细节、参数规模等信息。
      • 如果某个模型被社区标记为“Flagged”(有争议或问题),用户可以点击链接查看相关讨论。
    4. 社区协作与提交

      • 用户可以提交自己的模型进行评估,提交后会在排行榜的计算集群上自动运行测试。
      • 社区成员可以通过讨论区交流意见,报告问题或分享见解。
    5. 数据访问

      • 评估结果存储在 Hugging Face 的数据集(Dataset)中,例如:
        • 详细数值结果:https://huggingface.co/datasets/open-llm-leaderboard-old/results
        • 社区请求和运行状态:https://huggingface.co/datasets/open-llm-leaderboard-old/requests
      • 这些数据集公开透明,供用户下载和分析。
    6. 历史与更新

      • 该排行榜自推出以来不断更新,例如升级到 Open LLM Leaderboard v2,引入了更科学的评分方法(如归一化得分)。
      • 它还记录了过去两年内超过 13,000 个模型的评估数据,反映了开源 LLM 领域的快速发展。

    特色与意义

    • 广泛使用:自推出以来,该排行榜吸引了超过 200 万独立访客,每月约有 30 万社区成员参与使用或协作。
    • 推动评估标准化:通过提供统一测试环境,它促进了模型评估的公平性和科学性,避免了开发者“优化特定测试”的情况。
    • 适应新趋势:随着模型能力(如推理、长上下文处理)的变化,排行榜也在调整基准测试,以保持相关性。

    技术细节

    • 运行环境:所有模型评估在一个配备 8 个 H100 GPU 的单一节点上进行,批处理大小为 8。
    • 开源工具:基于 Eleuther AI 的评估框架,用户可通过命令行运行类似测试,例如: