使用场景
研究人员使用该模型来评估医学文献中答案的真实性。
金融分析师利用模型检测金融报告中的信息是否准确无误。
学术机构使用模型来验证学术研究中的数据和结论。
产品特色
幻觉检测:评估答案是否忠实于给定文档内容。
文本生成:基于提供的问题、文档和答案生成评估结果。
聊天格式训练:模型以聊天格式进行训练,适用于对话系统。
多数据集训练:结合了多个领域的数据集,提高了模型的泛化能力。
开源许可:模型遵循cc-by-nc-4.0许可,允许非商业性质的使用和分发。
高性能:在多个评估数据集上表现优异,尤其在FinanceBench和CovidQA上表现突出。
推理能力:能够运行推理,提供模型生成文本的功能。
使用教程
1. 准备问题、文档和答案的文本内容。
2. 使用模型推荐的prompt格式,将问题、文档和答案填入。
3. 通过Hugging Face的pipeline接口调用模型,传入准备好的prompt。
4. 模型将输出JSON格式的结果,包含'REASONING'和'SCORE'。
5. 根据模型输出的'SCORE'判断答案是否忠实于文档,'PASS'表示忠实,'FAIL'表示不忠实。
6. 分析'REASONING'部分,了解模型的评估理由。
7. 根据需要,将模型部署到自己的环境或使用Hugging Face提供的Inference Endpoints进行推理。