强化学习

  • Novasky

    使用场景开发者使用 S* 技术优化代码生成模型,在短时间内显著提升代码质量和生成效率。研究人员通过强化学习蒸馏推理技术改进推理模型,使其在复杂任务中表现更佳。团...
    开发与工具,AI模型,人工智能,代码生成,推理优化,强化学习,模型蒸馏,编程工具,普通产品,开源, 08月02日 0 0
  • VLM R1

    使用场景在自动驾驶场景中,VLM-R1 可以用于理解交通标志和道路状况的描述。在智能客服中,该模型可以解析用户对商品图片的描述,提供精准的客服支持。在图像标注任...
    AI模型,图片编辑,视觉语言模型,强化学习,图像理解,深度学习,自然语言处理,普通产品,开源, 08月02日 0 0
  • Mlgym

    使用场景研究人员可以使用MLGym训练AI代理解决复杂的决策问题,例如在游戏理论任务中找到最优策略。通过MLGym的轨迹可视化工具,研究人员可以直观地分析AI代...
    模型训练与部署,研究工具,AI研究,强化学习,自然语言处理,计算机视觉,模型训练,普通产品,开源, 08月02日 0 0
  • SWE RL

    使用场景开发者使用 SWE-RL 优化 Python 代码片段,提升代码质量研究团队利用 SWE-RL 探索强化学习在代码生成中的应用开发团队通过 SWE-RL...
    代码助手,开发与工具,强化学习,大型语言模型,软件工程,代码生成,开源,研究,普通产品,开源, 08月02日 0 0
  • Notagen

    使用场景音乐创作者使用 NotaGen 快速生成古典风格的乐谱,节省创作时间。音乐教育者利用 NotaGen 生成的乐谱作为教学素材,丰富课程内容。研究人员通过...
    音乐生成,AI模型,音乐生成,大语言模型,符号音乐,古典乐谱,人工智能,强化学习,普通产品,开源, 08月02日 0 0
  • Steiner 32b Preview

    使用场景在 GPQA Diamond 基准测试中,Steiner 在多个子领域(如量子力学、分子生物学)表现出较高的准确性,证明了其在特定学科领域的推理能力。用...
    AI模型,研究工具,推理模型,强化学习,合成数据,多语言支持,开源,零样本推理,普通产品,开源, 08月02日 0 0
  • R1 Omni

    使用场景在智能客服系统中,通过分析客户语音和视频中的情绪,提供更精准的服务。在心理健康应用中,通过分析用户的情绪表达,提供情绪疏导建议。在视频内容审核中,自动检...
    情感陪伴,客户服务,多模态,情绪识别,强化学习,可解释性,深度学习,模型,普通产品,开源, 08月02日 0 0
  • Light R1

    使用场景使用 Light-R1-7B-DS 模型在 AIME24 测试中达到 59.1% 的准确率,显著优于其他同类模型。通过课程式 SFT 和 DPO 训练,...
    模型训练与部署,研究工具,人工智能,长链推理,开源,强化学习,数学模型,普通产品,开源, 08月02日 0 0
  • Light R1 14B DS

    使用场景研究人员可以利用该模型进行数学问题解决算法的研究和改进。开发者可以基于该模型开发教育类应用,帮助学生更好地解决数学问题。企业可以将该模型应用于智能客服系...
    AI模型,研究工具,强化学习,数学模型,开源,自然语言处理,教育,普通产品,开源, 08月02日 0 0
  • 混元T1

    使用场景用于教育领域中的数学与科学推理问题解决。在科研项目中进行复杂逻辑推理和数据分析。为开发者提供高效的 API 接口,支持编程任务的自动化。产品特色长文本推...
    AI模型,研究工具,推理模型,人工智能,深度学习,强化学习,数学推理,逻辑推理,教育,中文精选 08月02日 0 0