Reft

产品特色监督微调(SFT)在线强化学习PPO算法推理路径采样性能优化策略

  • Reft

    类别:AI模型推理训练,AI模型,人工智能,推理,微调,强化学习,普通产品,开源,
    官网:https://huggingface.co/papers/2401.08967 更新时间:2025-08-01 16:56:17
  • 产品特色

    监督微调(SFT)

    在线强化学习

    PPO算法

    推理路径采样

    性能优化策略