你有没有想过一个问题:AI 模型是怎么论资排辈的?
和人类的高考一样,它们也有自己的考试——基准测试(Benchmark)。
不过,高考就那么几个科目,基准测试的花样就多了,有的考察通识,有的专攻某一项能力,数学、代码、阅读理解,无所不包。
▲Google 发布 Gemini 时的基准测试排名