5月17日,北京新型研发机构智源研究院举办大模型评测发布会,发布并解读了对国内外140余个开源和商业闭源的语言及多模态大模型的能力评测结果。此次测评首次引入人类学生熟悉的学科测试,让AI考生和三年级到高三学段的人类考生平均水平一较高下。根据大模型企业在语言模型、多模态理解与生成模型以及K12学科测验上的综合表现进行评比后,阿里云、百度、字节跳动、智谱华章、百川智能跻身“优秀”行列。与此同时,“文强理弱”、简单题目反而错误率高等模型普遍存在的短板也集中展现在大众面前。
中文语境下国产模型接近国际一流
本次评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。
在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况。在多模态(多模态,是指视频、语音和文本等多种信息表现形式)理解图文问答任务上,国产模型表现突出,特别是在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上,对比各家公布的演示视频长度和质量,美国OpenAI公司的视频大模型Sora有明显优势,其他开放评测的文生视频模型中,爱诗科技研发的国产模型PixVerse表现优异。