Scale Leaderboard

使用场景GPT-4 Turbo Preview在编程类别中排名第一,得分1155Claude 3 Opus在数学类别中排名第一,得分95.19GPT-4o在指令...

  • Scale Leaderboard

    类别:AI模型评测,AI研究机构,AI评估,专家评审,数据集更新,性能比较,国外精选
    官网:https://scale.com/leaderboard 更新时间:2025-08-01 18:13:51
  • 使用场景

    GPT-4 Turbo Preview在编程类别中排名第一,得分1155

    Claude 3 Opus在数学类别中排名第一,得分95.19

    GPT-4o在指令遵循类别中排名第二,得分88.57

    产品特色

    私有评估数据集,防止数据被操纵

    定期更新排行榜,包含新数据集和模型

    专家使用特定领域方法进行评估

    提供详细的评估方法学信息

    排行榜包括多个类别,如编程、数学、指令遵循和西班牙语等

    使用教程

    访问Scale Leaderboard网站

    查看不同类别的AI模型排行榜

    选择感兴趣的模型,了解其性能评分和排名

    阅读评估方法学,理解评分的依据

    如果希望将模型添加到排行榜,联系seal@scale.com