模型训练与部署 AI模型 强化学习 隐式过程奖励 生成模型 推理优化 数学问题解答 普通产品 开源
使用场景在数学问题解答中,使用EurusPRM-Stage2模型来优化推理过程,提高解答的准确性和效率。在逻辑推理任务中,利用模型的隐式过程奖励来提升推理的逻辑...