AI Agents AI游戏创作 人工智能 强化学习 奖励函数 NetHack 普通产品 开源
使用场景使用 Motif 训练 AI 代理在 NetHack 游戏中获取内在动机使用 Motif 生成与人类行为直觉一致的行为使用 Motif 通过提示修改来引...
使用场景
使用 Motif 训练 AI 代理在 NetHack 游戏中获取内在动机
使用 Motif 生成与人类行为直觉一致的行为
使用 Motif 通过提示修改来引导 AI 代理的行为
产品特色
使用 LLM 的偏好创建一组注释对的注释数据集
使用交叉熵将 LLM 的偏好转化为奖励函数
使用强化学习训练代理