强化学习

学习

O1 CODER

使用场景开发者使用O1-CODER生成特定功能的代码，并自动进行测试验证。编程教育中，O1-CODER被用作教学工具，帮助学生理解代码逻辑和测试的重要性。在软件...

代码助手,模型训练与部署,编程辅助,代码生成,强化学习,蒙特卡洛树搜索,自动化测试,普通产品,开源, 08月02日 0 0
开发

Mwp ReFT

使用场景研究人员使用ReFT在GSM8k数据集上微调Codellama模型，提高了模型的Top-1准确率。开发者利用ReFT框架在mathqa数据集上对Gala...

模型训练与部署,开发与工具,自然语言处理,深度学习,强化学习,模型微调,普通产品,开源, 08月02日 0 0
学习

RLVR GSM MATH IF Mixed Constraints

使用场景教育软件开发者使用该数据集训练AI模型，以自动生成数学问题的解答研究人员利用数据集分析学生在解决数学问题时的常见错误AI模型通过学习数据集中的问题和解答...

学习教育,研究工具,数学,教育,强化学习,数据集,AI,普通产品,开源, 08月02日 0 0
学习

Meta Motivo

使用场景使用Meta Motivo进行动作跟踪任务，如模仿运动员的体操动作。通过姿势达到提示，让虚拟代理完成特定的舞蹈动作。利用奖励优化功能，训练代理在虚拟环境...

AI模型,智能体,人工智能,强化学习,人形控制,行为基础模型,零样本学习,普通产品 08月02日 0 0
开发

Unitree RL GYM

使用场景研究人员使用Unitree RL GYM在模拟环境中训练机器人行走和平衡算法开发者利用该平台测试新的强化学习算法在实际机器人上的表现教育机构使用Unit...

模型训练与部署,开发与工具,Unitree,强化学习,机器人,仿真,开源,普通产品,开源, 08月02日 0 0
学习

Mars

使用场景金融分析师使用MarS模拟市场趋势，以预测未来的市场动向。交易员利用MarS进行'What IF'分析，评估不同交易策略的市场影响。市场监管机构使用Ma...

金融,模型训练与部署,金融,模拟,市场分析,预测,交易策略,强化学习,优质新品,开源, 08月02日 0 0
学习

Huatuogpt O1

使用场景医疗研究人员使用HuatuoGPT-o1来模拟病人诊断过程，提高诊断的准确性。医学院校将HuatuoGPT-o1作为教学辅助工具，帮助学生理解复杂的医疗...

医疗,研究工具,医疗,复杂推理,大型语言模型,强化学习,开源,普通产品,开源, 08月02日 0 0
学习

GLM Zero Preview

使用场景案例1: 研究人员使用GLM-Zero-Preview进行复杂的数理逻辑问题推理，发现新的研究路径。案例2: 开发者通过GLM-Zero-Preview...

AI模型,研究工具,AI推理,强化学习,数理逻辑,编程辅助,教育工具,中文精选 08月02日 0 0
学习

PRIME RL

使用场景在AIME 2024数学竞赛中，PRIME模型的通过率达到26.7%，超越了GPT-4o和Qwen2.5-Math-7B-Instruct。通过在线强化...

模型训练与部署,AI模型,强化学习,推理能力,隐式奖励,数学竞赛,开源,普通产品,开源, 08月02日 0 0
学习

Eurusprm Stage1

使用场景在数学问题解答中，使用EurusPRM-Stage1模型来生成详细的解题步骤和答案，提高解题的准确性和效率。在自然语言生成任务中，利用该模型生成连贯、准...

AI模型,模型训练与部署,强化学习,隐式过程奖励,生成模型,推理能力,自然语言生成,数学问题解答,普通产品,开源, 08月02日 0 0

点击加载更多