模型训练与部署 研究工具 人工智能 长链推理 开源 强化学习 数学模型 普通产品
使用场景使用 Light-R1-7B-DS 模型在 AIME24 测试中达到 59.1% 的准确率,显著优于其他同类模型。通过课程式 SFT 和 DPO 训练,...