这个网站是 Hugging Face 上的一个 Space,名为 Open LLM Leaderboard(开放大语言模型排行榜),由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。以下是对其功能和用途的详细介绍:
网站的主要用途
Open LLM Leaderboard 旨在解决评估和比较开源大语言模型的难题。由于不同模型的开发者可能会使用不同的测试方法、提示词或数据集,导致性能数据难以直接比较,这个排行榜通过标准化的评估流程,提供可重现的结果,帮助用户区分宣传中的“水分”和模型的真实能力。它广泛服务于机器学习社区,包括研究人员、开发者和普通用户。
核心功能
-
模型排名与评估
- 网站展示了一个排行榜,列出各种开源大语言模型的性能得分。
- 评估基于标准化的基准测试(如 MMLU、HellaSwag 等),确保所有模型在相同的条件下(例如相同的问题、相同的提问顺序)进行测试。
- 用户可以看到每个模型在不同任务上的得分,例如多选题准确率、推理能力等。
-
可重现性支持
- 提供详细的评估数据和方法,用户可以通过给出的代码和工具重现结果。
- 例如,用户可以使用 Eleuther AI 的 LM Evaluation Harness(一个开源评估框架)运行相同的测试,具体命令和参数也在网站相关文档中提供。
-
模型详细信息
- 点击模型名称后的特定图标(如 📄),可以查看该模型的输入输出细节、参数规模等信息。
- 如果某个模型被社区标记为“Flagged”(有争议或问题),用户可以点击链接查看相关讨论。
-
社区协作与提交
- 用户可以提交自己的模型进行评估,提交后会在排行榜的计算集群上自动运行测试。
- 社区成员可以通过讨论区交流意见,报告问题或分享见解。
-
数据访问
- 评估结果存储在 Hugging Face 的数据集(Dataset)中,例如:
- 详细数值结果:
https://huggingface.co/datasets/open-llm-leaderboard-old/results
- 社区请求和运行状态:
https://huggingface.co/datasets/open-llm-leaderboard-old/requests
- 详细数值结果:
- 这些数据集公开透明,供用户下载和分析。
- 评估结果存储在 Hugging Face 的数据集(Dataset)中,例如:
-
历史与更新
- 该排行榜自推出以来不断更新,例如升级到 Open LLM Leaderboard v2,引入了更科学的评分方法(如归一化得分)。
- 它还记录了过去两年内超过 13,000 个模型的评估数据,反映了开源 LLM 领域的快速发展。
特色与意义
- 广泛使用:自推出以来,该排行榜吸引了超过 200 万独立访客,每月约有 30 万社区成员参与使用或协作。
- 推动评估标准化:通过提供统一测试环境,它促进了模型评估的公平性和科学性,避免了开发者“优化特定测试”的情况。
- 适应新趋势:随着模型能力(如推理、长上下文处理)的变化,排行榜也在调整基准测试,以保持相关性。
技术细节
- 运行环境:所有模型评估在一个配备 8 个 H100 GPU 的单一节点上进行,批处理大小为 8。
- 开源工具:基于 Eleuther AI 的评估框架,用户可通过命令行运行类似测试,例如: