WARM

使用场景用于大型语言模型的奖励模型优化提高语言模型预测质量的实验对齐语言模型与人类偏好的研究产品特色加权平均奖励模型对齐大型语言模型与人类偏好提高预测质量和对齐...

  • WARM

    类别:AI模型,人工智能,大型语言模型,奖励模型,加权平均,普通产品,开源,
    官网:https://huggingface.co/papers/2401.12187 更新时间:2025-08-01 17:01:03
  • 使用场景

    用于大型语言模型的奖励模型优化

    提高语言模型预测质量的实验

    对齐语言模型与人类偏好的研究

    产品特色

    加权平均奖励模型

    对齐大型语言模型与人类偏好

    提高预测质量和对齐性