Dreureka

使用场景四足机器人在不同地形上的行走测试。瑜伽球上四足机器人的平衡和行走。灵巧操作任务,如立方体旋转。产品特色自动化构建奖励函数:根据目标任务自动生成适合的奖励...

  • Dreureka

    类别:AI开发助手,AI模型,人工智能,机器学习,机器人技术,自动化,模拟到现实,普通产品,开源,
    官网:https://eureka-research.github.io/dr-eureka/ 更新时间:2025-08-01 17:58:04
  • 使用场景

    四足机器人在不同地形上的行走测试。

    瑜伽球上四足机器人的平衡和行走。

    灵巧操作任务,如立方体旋转。

    产品特色

    自动化构建奖励函数:根据目标任务自动生成适合的奖励函数。

    领域随机化分布:为支持现实世界转移,自动生成领域随机化参数。

    模拟条件下的策略测试:在不同模拟条件下测试策略,构建奖励感知的物理先验。

    现实世界部署:使用合成的奖励和领域随机化参数,训练策略以供现实世界部署。

    鲁棒性:DrEureka策略在现实世界中表现出色,即使在地形变化和干扰下也能保持平衡。

    安全性:通过整合安全指令,改进了奖励设计,以生成足够安全以在现实世界中部署的奖励函数。

    奖励感知物理先验:使用初始策略生成奖励感知的物理先验对DrEureka的成功至关重要。

    使用教程

    步骤1:提供任务和安全指令以及环境源代码给DrEureka。

    步骤2:DrEureka生成规则化的奖励函数和策略。

    步骤3:在不同模拟条件下测试策略,构建奖励感知的物理先验。

    步骤4:将物理先验提供给LLM以生成领域随机化参数集。

    步骤5:使用合成的奖励和领域随机化参数训练策略。

    步骤6:将训练好的策略部署到现实世界中进行测试和应用。