你有没有想过一个问题:AI 模型是怎么论资排辈的?

和人类的高考一样,它们也有自己的考试——基准测试(Benchmark)。

不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。

▲Google 发布 Gemini 时的基准测试排名

0个人收藏 收藏

评论交流