强化学习

开发

SERL

使用场景使用SERL实现PCB装配任务的强化学习使用SERL训练电缆布线任务的策略基于SERL实现物体重定位的示例产品特色包含一个高效的离策略深度强化学习方法计...

AI开发助手,AI代码生成,强化学习,机器人,代码,普通产品,开源, 08月01日 0 0
学习

Openai Universe

使用场景利用 Universe 训练一个AI代理玩第一人称射击游戏构建一个可以自动完成网上订票任务的 AI 系统在 Universe 环境中训练一个能快速学习新...

AI模型,AI Agents,人工智能,通用智能,强化学习,环境集成,任务模拟,普通产品 08月01日 0 0
开发

Mukoe

使用场景使用MuKoe进行Atari游戏的强化学习研究在TPU上进行深度学习模型的训练和推理利用Ray框架进行大规模分布式计算任务产品特色分布式计算TPU加速学...

AI模型,AI开发平台,AI,分布式系统,强化学习,开源,普通产品,开源, 08月01日 0 0
开发

Lerobot

使用场景在ALOHA环境中使用ACT策略进行机器人操作任务的研究。使用SimXArm环境和TDMPC策略进行机器人臂操作的模拟。利用PushT环境和Diffus...

AI开发助手,AI模型,机器学习,强化学习,模仿学习,PyTorch,机器人技术,普通产品,开源, 08月01日 0 0
创作

DIAMOND

使用场景研究人员使用DIAMOND模型在雅达利游戏中进行策略训练和评估。开发者利用DIAMOND进行游戏环境的自回归想象，以改进游戏AI。教育工作者将DIAMO...

AI模型,AI游戏创作,机器学习,强化学习,扩散模型,雅达利,人工智能,普通产品,开源, 08月01日 0 0
开发

RL4VLM

使用场景研究人员使用RL4VLM微调模型以改进自然语言处理任务中的决策制定能力。开发者利用该项目提供的代码库和环境来训练自定义的视觉-语言模型。教育机构将RL4...

AI模型,AI开发助手,强化学习,视觉-语言模型,决策制定,开源项目,普通产品,开源, 08月01日 0 0
学习

Nemotron 4 340B Reward

使用场景研究人员使用Nemotron-4-340B-Reward模型来评估和改进他们自己构建的语言模型。开发者利用该模型在对话系统开发中生成训练数据，以提高系统...

AI模型,AI 模型推理训练,AI,大型语言模型,合成数据生成,强化学习,普通产品,开源, 08月01日 0 0
开发

Digirl

使用场景在搜索好的意大利餐厅时，DigiRL能够自动完成搜索任务。在新蛋网上搜索Alienware Aurora时，DigiRL能够自动导航至产品页面并执行搜索...

AI开发助手,AI强化学习,强化学习,自主学习,设备控制,Android任务,普通产品,开源, 08月01日 0 0
学习

Meta Llama 3.1 8B Instruct

使用场景构建一个能够以多种语言进行交流的客服聊天机器人。开发一个多语言虚拟助手，用于提供信息查询和日常任务管理。实现一个教育应用，使用该模型进行语言学习辅导和对...

AI模型,AI聊天机器人,语言模型,对话生成,多语言支持,强化学习,微调,优质新品,开源, 08月01日 0 0
学习

Agent Q

使用场景在Open Table上进行的预订实验，成功率高达95.4%。开发者可以利用Agent Q进行复杂的网络数据收集和分析任务。消费者可以使用Agent Q...

AI Agents,AI模型,AI代理,自主导航,多步推理,强化学习,国外精选 08月01日 0 0

点击加载更多