AI模型 人工智能 大型语言模型 奖励模型 加权平均 普通产品 开源
使用场景用于大型语言模型的奖励模型优化提高语言模型预测质量的实验对齐语言模型与人类偏好的研究产品特色加权平均奖励模型对齐大型语言模型与人类偏好提高预测质量和对齐...