模型训练与部署 AI模型 强化学习 推理能力 隐式奖励 数学竞赛 开源 普通产品
使用场景在AIME 2024数学竞赛中,PRIME模型的通过率达到26.7%,超越了GPT-4o和Qwen2.5-Math-7B-Instruct。通过在线强化...