AI模型推理训练 AI开发助手 奖励设计 强化学习 语言模型 普通产品 开源
产品特色利用大型语言模型进行奖励设计通过进化优化生成复杂的奖励函数使用生成的奖励函数进行强化学习
产品特色
利用大型语言模型进行奖励设计
通过进化优化生成复杂的奖励函数
使用生成的奖励函数进行强化学习