Openscholar ExpertEval_创作

Openscholar ExpertEval

类别：研究工具,模型训练与部署,专家评估,数据评估,检索增强型语言模型,科学文献合成,人工评估,普通产品,开源,

官网:https://github.com/AkariAsai/OpenScholar_ExpertEval 更新时间：2025-08-02 09:55:43
使用场景
研究人员使用该工具来评估不同语言模型生成的科学文献的准确性和可靠性。
教育工作者可以利用该工具来教授学生如何评估AI生成的内容。
开发者可以利用该工具来测试和改进他们自己的语言模型。
产品特色
提供人工评估标注界面：用于专家对模型生成的文本进行评估。
支持RAG评估：能够对检索增强型生成模型进行评估。
细粒度评估：允许专家进行更细致的评估。
数据准备：需要将评估实例放入指定文件夹，支持JSONL格式。
结果数据库存储：评估结果默认存储在本地数据库文件中。
结果导出：支持将评估结果导出为Excel文件。
评估指标计算：提供脚本计算评估指标和一致性。
界面分享：支持在云服务上部署，以便分享评估界面。
使用教程
1. 安装环境：按照README中的指南创建并激活虚拟环境，并安装依赖。
2. 准备数据：将评估实例放入`data`文件夹中，每个实例应包含提示和两个模型的完成结果。
3. 运行应用：使用`python app.py`命令启动评估界面。
4. 访问界面：在浏览器中打开`http://localhost:5001`来访问评估界面。
5. 评估结果：评估完成后，可以在`http://localhost:5001/summary`查看进度。
6. 结果导出：使用`python export_db.py`命令将评估结果导出为Excel文件。
7. 计算指标：使用`python compute_metrics.py`命令计算评估指标和一致性。

点击加载更多

Openscholar ExpertEval

Openscholar ExpertEval

精彩推荐

马斯克宣布旗下xAI开源Grok 2.5模型 Grok 3半年后跟进

AI医疗与创新药齐热，京东健康在押什么注？

即梦AI智能多帧功能：开启视频创作新时代

这群年轻人用“AI”种菜

马斯克旗下xAI宣布Grok 4 AI模型永久免费开放

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！

Openscholar ExpertEval

Openscholar ExpertEval

精彩推荐

马斯克宣布旗下xAI开源Grok 2.5模型 Grok 3半年后跟进

AI医疗与创新药齐热，京东健康在押什么注？

即梦AI智能多帧功能：开启视频创作新时代

这群年轻人用“AI”种菜

马斯克​旗下xAI宣布Grok 4 AI模型永久免费开放

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！

马斯克旗下xAI宣布Grok 4 AI模型永久免费开放