C-Eval 排行榜_大模型

C-Eval 排行榜

类别：大模型评测

官网:https://cevalbenchmark.com/static/leaderboard_zh.html 更新时间：2025-07-28 18:36:02
https://cevalbenchmark.com/static/leaderboard_zh.html 是 中文大模型评估基准 C-Eval 的官方排行榜页面，主要用于展示不同大语言模型（LLMs）在多层次、多学科中文任务中的综合能力排名。以下是对其核心功能和特点的详细介绍：

一、核心功能
1. 模型能力排名
  提供实时更新的中文大模型性能排行榜，涵盖国内外主流模型（如 GPT-4、GLM、ChatGPT 等），通过标准化分数直观对比模型在复杂任务中的表现。
2. 多层次评估体系
  - 学科覆盖：包含 52 个学科，覆盖初中、高中、大学、专业四大难度级别，例如数学、物理、化学、法学、医学等。
  - 题目类型：13,948 道选择题，题目来源包括 PDF/Word 解析和人工标注，避免训练数据污染。
  - 挑战性子集（C-Eval Hard）：从评估集中筛选 8 个高难度科目（如高等数学、离散数学），测试模型的深度推理能力。
3. 评估模式支持
  - Answer-Only（AO）：直接输出答案。
  - Chain-of-Thought（CoT）：要求模型生成推理过程后再回答，部分科目中 CoT 可显著提升性能（如 GPT-4 在概率统计科目上提升 8.4%）。
4. 开发者工具
  - 测试集提交：用户可将模型预测结果提交至网站，系统自动生成分数并更新排名，测试集标签保密以保证公平性。
  - 数据防污染设计：采用非结构化数据格式（如 LaTeX）和人工审核，减少预训练数据泄露风险。
二、典型应用场景
1. 模型研发优化：帮助开发者识别模型在特定学科或难度级别的短板，针对性优化训练策略。
2. 技术选型参考：企业可根据排行榜选择适合自身场景的模型（如教育、医疗、法律等领域）。
3. 学术研究支持：为研究中文大模型能力边界、多任务学习机制等提供数据基础。
三、榜单示例（截至搜索结果时间）

排名模型综合得分特点

1 GLM-4 87.2 国内领先的推理能力

2 GPT-4 85.0 多学科均衡表现

3 Claude-3 78.5 逻辑推理优势显著

四、访问与使用
- 官网入口：https://cevalbenchmark.com
- 数据下载：提供开发集和验证集标签，测试集需通过提交预测结果参与评估。
如需更详细的评估方法或学科分类，可参考 C-Eval 论文或访问官网文档。

排名	模型	综合得分	特点
1	GLM-4	87.2	国内领先的推理能力
2	GPT-4	85.0	多学科均衡表现
3	Claude-3	78.5	逻辑推理优势显著

点击加载更多

C-Eval 排行榜

C-Eval 排行榜

一、核心功能

二、典型应用场景

三、榜单示例（截至搜索结果时间）

四、访问与使用

精彩推荐

马斯克宣布旗下xAI开源Grok 2.5模型 Grok 3半年后跟进

AI医疗与创新药齐热，京东健康在押什么注？

即梦AI智能多帧功能：开启视频创作新时代

这群年轻人用“AI”种菜

马斯克旗下xAI宣布Grok 4 AI模型永久免费开放

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！

C-Eval 排行榜

C-Eval 排行榜

一、核心功能

二、典型应用场景

三、榜单示例（截至搜索结果时间）

四、访问与使用

精彩推荐

马斯克宣布旗下xAI开源Grok 2.5模型 Grok 3半年后跟进

AI医疗与创新药齐热，京东健康在押什么注？

即梦AI智能多帧功能：开启视频创作新时代

这群年轻人用“AI”种菜

马斯克​旗下xAI宣布Grok 4 AI模型永久免费开放

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！

马斯克旗下xAI宣布Grok 4 AI模型永久免费开放