Promptbench

使用场景使用promptbench快速评估语言模型在GLUE基准上的效果测试基于情感的提示技术对模型性能的影响构建对抗性提示,评估模型的稳健性使用DyVal动态...

  • Promptbench

    类别:AI模型,AI模型推理训练,基准,评估,提示,稳健性,对抗攻击,大型语言模型,提示工程,ChatGPT,普通产品,开源,
    官网:https://github.com/microsoft/promptbench 更新时间:2025-08-01 16:39:26
  • 使用场景

    使用promptbench快速评估语言模型在GLUE基准上的效果

    测试基于情感的提示技术对模型性能的影响

    构建对抗性提示,评估模型的稳健性

    使用DyVal动态生成样本,进行模型评估

    产品特色

    快速模型性能评估

    提示工程

    对抗提示评估

    动态评估