使用场景
使用GLIDER模型评估金融领域的对话系统输出。
利用GLIDER模型对医学领域的文本进行质量评分。
将GLIDER模型应用于教育领域的问答系统,以评估回答的准确性和相关性。
产品特色
支持多种语言,主要包括英语,也支持韩语、哈萨克语、印地语等多种语言。
基于用户定义的评分规则进行文本评估。
支持长文本处理,经过测试可以处理高达12000个token的文本。
可以用于评估对话数据和RAG系统输出。
提供了详细的评分和推理输出格式。
支持任意数量的输入和输出,数据结构灵活。
提供了模型推理的代码示例,方便用户快速开始使用。
使用教程
1. 访问Hugging Face网站并导航到Patronus GLIDER模型页面。
2. 根据需要评估的数据类型选择合适的数据结构模板。
3. 定义pass criteria和rubric,这些将作为模型评估的依据。
4. 将数据填充到选定的模板中,并确保遵循模型的输入格式要求。
5. 使用Hugging Face提供的pipeline代码示例运行模型推理。
6. 分析模型输出的结果,包括详细推理、关键词列表和最终评分。
7. 根据模型输出调整pass criteria或rubric,以优化评估效果。
8. 将模型应用于实际的文本、对话或RAG系统评估任务中,以持续改进和优化。