强化学习

  • Octopus

    使用场景在模拟器中完成日常家务任务在复杂视频游戏中完成任务编写可执行代码产品特色高效解析代理的视觉和文本任务目标制定复杂的动作序列生成可执行代码处理广泛的任务,...
    AI开发助手,AI代码生成,视觉语言编程,环境反馈,强化学习,GPT-4,模拟器,普通产品,开源, 08月01日 0 0
  • Unisim

    使用场景使用UniSim训练机器人进行长期规划利用UniSim模拟真实世界交互体验使用UniSim训练强化学习策略产品特色模拟真实世界交互体验训练高级视觉语言规...
    AI模型,AI游戏创作,模拟器,交互式,强化学习,视觉语言规划器,决策优化,普通产品,开源, 08月01日 0 0
  • Flowrl

    使用场景一个电子商务平台根据用户偏好调整商品展示顺序一个社交媒体应用根据用户兴趣推荐内容一个新闻应用根据用户阅读习惯调整新闻推送顺序产品特色实时UI个性化强化学...
    个人助理,AI模型,AI,个性化,实时,用户体验,强化学习,普通产品 08月01日 0 0
  • Eureka

    产品特色利用大型语言模型进行奖励设计通过进化优化生成复杂的奖励函数使用生成的奖励函数进行强化学习
    AI模型推理训练,AI开发助手,奖励设计,强化学习,语言模型,普通产品,开源, 08月01日 0 0
  • Motif

    使用场景使用 Motif 训练 AI 代理在 NetHack 游戏中获取内在动机使用 Motif 生成与人类行为直觉一致的行为使用 Motif 通过提示修改来引...
    AI Agents,AI游戏创作,人工智能,强化学习,奖励函数,NetHack,普通产品,开源, 08月01日 0 0
  • Jaxmarl

    产品特色支持多智能体强化学习环境支持多种基准算法易于使用支持 GPU 加速
    AI开发助手,AI模型,强化学习,多智能体,JAX,普通产品,开源, 08月01日 0 0
  • Starling 7B

    产品特色基于 AI 反馈的强化学习优化 LLM 的可用性和安全性提供高质量的排名数据集和奖励模型
    模型训练与部署,AI模型,语言模型,强化学习,聊天机器人,普通产品 08月01日 0 0
  • Parrot

    使用场景{ "title": "文学创作", "description": "使用 Parrot 生成与文学作品相关的图像,提升作品可视化效果。"}{ "...
    AI图像生成,AI模型,强化学习,文本生成,图片生成,普通产品,开源, 08月01日 0 0
  • Reft

    产品特色监督微调(SFT)在线强化学习PPO算法推理路径采样性能优化策略
    AI模型推理训练,AI模型,人工智能,推理,微调,强化学习,普通产品,开源, 08月01日 0 0
  • Diffusionrl

    使用场景通过DiffusionRL改进了文本到图像扩散模型,提高了图像生成的质量。DiffusionRL应用于改进了稳定扩散模型,使生成的样本更符合人类偏好。利...
    AI图像生成,AI模型,深度学习,图像生成,强化学习,普通产品 08月01日 0 0