Promptfoo

使用场景评估LLM生成的文本是否准确测试不同的prompt对模型输出的影响比较不同模型在相同prompt下的表现产品特色创建测试用例列表使用内置的评估指标或自定...