使用场景
使用promptbench快速评估语言模型在GLUE基准上的效果
测试基于情感的提示技术对模型性能的影响
构建对抗性提示,评估模型的稳健性
使用DyVal动态生成样本,进行模型评估
产品特色
快速模型性能评估
提示工程
对抗提示评估
动态评估
使用场景
使用promptbench快速评估语言模型在GLUE基准上的效果
测试基于情感的提示技术对模型性能的影响
构建对抗性提示,评估模型的稳健性
使用DyVal动态生成样本,进行模型评估
产品特色
快速模型性能评估
提示工程
对抗提示评估
动态评估