WARM

使用场景用于大型语言模型的奖励模型优化提高语言模型预测质量的实验对齐语言模型与人类偏好的研究产品特色加权平均奖励模型对齐大型语言模型与人类偏好提高预测质量和对齐...