使用场景
GPT-4 Turbo Preview在编程类别中排名第一,得分1155
Claude 3 Opus在数学类别中排名第一,得分95.19
GPT-4o在指令遵循类别中排名第二,得分88.57
产品特色
私有评估数据集,防止数据被操纵
定期更新排行榜,包含新数据集和模型
专家使用特定领域方法进行评估
提供详细的评估方法学信息
排行榜包括多个类别,如编程、数学、指令遵循和西班牙语等
使用教程
访问Scale Leaderboard网站
查看不同类别的AI模型排行榜
选择感兴趣的模型,了解其性能评分和排名
阅读评估方法学,理解评分的依据
如果希望将模型添加到排行榜,联系seal@scale.com
