强化学习

  • Light R1

    使用场景使用 Light-R1-7B-DS 模型在 AIME24 测试中达到 59.1% 的准确率,显著优于其他同类模型。通过课程式 SFT 和 DPO 训练,...
    模型训练与部署,研究工具,人工智能,长链推理,开源,强化学习,数学模型,普通产品,开源, 08月02日 0 0
  • Light R1 14B DS

    使用场景研究人员可以利用该模型进行数学问题解决算法的研究和改进。开发者可以基于该模型开发教育类应用,帮助学生更好地解决数学问题。企业可以将该模型应用于智能客服系...
    AI模型,研究工具,强化学习,数学模型,开源,自然语言处理,教育,普通产品,开源, 08月02日 0 0
  • 混元T1

    使用场景用于教育领域中的数学与科学推理问题解决。在科研项目中进行复杂逻辑推理和数据分析。为开发者提供高效的 API 接口,支持编程任务的自动化。产品特色长文本推...
    AI模型,研究工具,推理模型,人工智能,深度学习,强化学习,数学推理,逻辑推理,教育,中文精选 08月02日 0 0
  • Deepcoder

    使用场景自动化代码生成:用户可以利用 DeepCoder 生成高效的代码段,减少手动编写的时间。编程竞赛辅助:为参加编程竞赛的开发者提供实时代码评估和优化建议。...
    代码助手,开发与工具,开源,AI,编程,强化学习,自动化,普通产品,开源, 08月02日 0 0
  • D1

    使用场景使用该模型提升聊天机器人在复杂问题上的推理能力。在教育应用中,帮助学生解决逻辑推理题目。为内容创作者提供智能化的写作辅助,提升创作效率。产品特色高质量推...
    写作助手,AI模型,推理,强化学习,模型优化,自然语言处理,深度学习,普通产品,开源, 08月02日 0 0
  • Search R1

    使用场景使用 Search-R1 训练一个模型来回答复杂的问题并调用搜索引擎获取最新信息。利用该框架开发一个智能问答系统,能够进行多轮对话并实时检索数据。在教育...
    模型训练与部署,AI搜索,强化学习,自然语言处理,开源,语言模型,工具增强,普通产品,开源, 08月02日 0 0
  • Zerosearch

    使用场景在教育领域中,ZeroSearch 可帮助教师和学生快速检索相关学术文献。在商业环境中,企业可以使用 ZeroSearch 进行市场调研,获取相关数据而...
    AI模型,开发与工具,强化学习,搜索能力,大型语言模型,无搜索引擎,模型优化,普通产品,开源, 08月02日 0 0