Light R1

使用场景使用 Light-R1-7B-DS 模型在 AIME24 测试中达到 59.1% 的准确率,显著优于其他同类模型。通过课程式 SFT 和 DPO 训练,...