强化学习

  • Deepmind

    使用场景AlphaFold 帮助科学家在药物设计中识别和设计新的蛋白质结构。Veo 被用于生成高质量的视频内容,用于教育和娱乐。Project Astra 被集...
    研究工具,AI模型,人工智能,机器学习,深度学习,强化学习,图像生成,视频生成,蛋白质结构,全球热门 08月01日 0 0
  • Agibot X1 Train

    使用场景研究人员使用Agibot X1进行机器人行走稳定性的研究开发者利用Agibot X1的代码库为其他类型的机器人创建训练环境教育工作者将Agibot X1...
    开发与工具,模型训练与部署,开源,强化学习,机器人,模块化,AimRT,普通产品,开源, 08月02日 0 0
  • Tülu 3

    使用场景研究人员可以使用Tülu 3来训练一个能够理解和生成代码的模型。开发者可以利用Tülu 3的数据集和配方来创建一个多语言交互的聊天机器人。企业家可以根据...
    AI,语言模型,后训练,开源,强化学习,数据集,国外精选 08月02日 0 0
  • O1 CODER

    使用场景开发者使用O1-CODER生成特定功能的代码,并自动进行测试验证。编程教育中,O1-CODER被用作教学工具,帮助学生理解代码逻辑和测试的重要性。在软件...
    代码助手,模型训练与部署,编程辅助,代码生成,强化学习,蒙特卡洛树搜索,自动化测试,普通产品,开源, 08月02日 0 0
  • Mwp ReFT

    使用场景研究人员使用ReFT在GSM8k数据集上微调Codellama模型,提高了模型的Top-1准确率。开发者利用ReFT框架在mathqa数据集上对Gala...
    模型训练与部署,开发与工具,自然语言处理,深度学习,强化学习,模型微调,普通产品,开源, 08月02日 0 0
  • RLVR GSM MATH IF Mixed Constraints

    使用场景教育软件开发者使用该数据集训练AI模型,以自动生成数学问题的解答研究人员利用数据集分析学生在解决数学问题时的常见错误AI模型通过学习数据集中的问题和解答...
    学习教育,研究工具,数学,教育,强化学习,数据集,AI,普通产品,开源, 08月02日 0 0
  • Meta Motivo

    使用场景使用Meta Motivo进行动作跟踪任务,如模仿运动员的体操动作。通过姿势达到提示,让虚拟代理完成特定的舞蹈动作。利用奖励优化功能,训练代理在虚拟环境...
    AI模型,智能体,人工智能,强化学习,人形控制,行为基础模型,零样本学习,普通产品 08月02日 0 0
  • Unitree RL GYM

    使用场景研究人员使用Unitree RL GYM在模拟环境中训练机器人行走和平衡算法开发者利用该平台测试新的强化学习算法在实际机器人上的表现教育机构使用Unit...
    模型训练与部署,开发与工具,Unitree,强化学习,机器人,仿真,开源,普通产品,开源, 08月02日 0 0
  • Mars

    使用场景金融分析师使用MarS模拟市场趋势,以预测未来的市场动向。交易员利用MarS进行'What IF'分析,评估不同交易策略的市场影响。市场监管机构使用Ma...
    金融,模型训练与部署,金融,模拟,市场分析,预测,交易策略,强化学习,优质新品,开源, 08月02日 0 0
  • Huatuogpt O1

    使用场景医疗研究人员使用HuatuoGPT-o1来模拟病人诊断过程,提高诊断的准确性。医学院校将HuatuoGPT-o1作为教学辅助工具,帮助学生理解复杂的医疗...
    医疗,研究工具,医疗,复杂推理,大型语言模型,强化学习,开源,普通产品,开源, 08月02日 0 0