Reft

AI模型推理训练 AI模型人工智能推理微调强化学习普通产品开源

产品特色监督微调（SFT）在线强化学习PPO算法推理路径采样性能优化策略

Reft

类别：AI模型推理训练,AI模型,人工智能,推理,微调,强化学习,普通产品,开源,

官网:https://huggingface.co/papers/2401.08967 更新时间：2025-08-01 16:56:17
产品特色
监督微调（SFT）
在线强化学习
PPO算法
推理路径采样
性能优化策略

点击加载更多