强化学习

学习

GLM Zero Preview

使用场景案例1: 研究人员使用GLM-Zero-Preview进行复杂的数理逻辑问题推理，发现新的研究路径。案例2: 开发者通过GLM-Zero-Preview...

AI模型,研究工具,AI推理,强化学习,数理逻辑,编程辅助,教育工具,中文精选 08月02日 0 0
学习

PRIME RL

使用场景在AIME 2024数学竞赛中，PRIME模型的通过率达到26.7%，超越了GPT-4o和Qwen2.5-Math-7B-Instruct。通过在线强化...

模型训练与部署,AI模型,强化学习,推理能力,隐式奖励,数学竞赛,开源,普通产品,开源, 08月02日 0 0
学习

Eurusprm Stage1

使用场景在数学问题解答中，使用EurusPRM-Stage1模型来生成详细的解题步骤和答案，提高解题的准确性和效率。在自然语言生成任务中，利用该模型生成连贯、准...

AI模型,模型训练与部署,强化学习,隐式过程奖励,生成模型,推理能力,自然语言生成,数学问题解答,普通产品,开源, 08月02日 0 0
学习

Eurusprm Stage2

使用场景在数学问题解答中，使用EurusPRM-Stage2模型来优化推理过程，提高解答的准确性和效率。在逻辑推理任务中，利用模型的隐式过程奖励来提升推理的逻辑...

模型训练与部署,AI模型,强化学习,隐式过程奖励,生成模型,推理优化,数学问题解答,普通产品,开源, 08月02日 0 0
学习

Eurus 2 7B PRIME

使用场景在编程问题解答中，使用该模型生成高质量的Python代码。在数学问题求解中，使用该模型生成详细的解答步骤和LaTex格式的答案。在自然语言处理任务中，利...

模型训练与部署,AI模型,强化学习,推理能力,语言模型,文本生成,编程,数学,普通产品,开源, 08月02日 0 0
开发

Self Adaptive Llms

使用场景自然语言处理任务中的文本分类和情感分析。多语言翻译任务，根据不同语言对模型进行实时调整。智能客服系统中根据不同客户问题调整回答策略。产品特色实时任务适应...

AI模型,开发与工具,人工智能,大型语言模型,自适应,强化学习,开源,普通产品,开源, 08月02日 0 0
开发

Rlloggingboard

使用场景在押韵任务中，通过可视化工具分析模型生成的诗句是否符合押韵要求，优化训练过程。在对话生成任务中，监控模型生成的对话质量，通过奖励分布分析模型的收敛情况。...

模型训练与部署,开发与工具,强化学习,可视化,调试,编程,人工智能,普通产品,开源, 08月02日 0 0
学习

Deepseek R1

使用场景研究人员可以使用 DeepSeek-R1 进行复杂推理任务的研究，探索模型的推理边界。开发者可以将 DeepSeek-R1 集成到应用程序中，为用户提供...

AI模型,研究工具,人工智能,推理模型,强化学习,开源,多语言支持,中文精选,开源, 08月02日 0 0
学习

Deepseek R1 Zero

使用场景在学术研究中，用于探索强化学习在提升模型推理能力方面的潜力。在编程竞赛中，帮助开发者快速生成高质量代码，提升竞赛表现。在教育领域，辅助学生解决复杂的数学...

AI模型,研究工具,强化学习,推理模型,开源,编程,研究工具,中文精选,开源, 08月02日 0 0
学习

Kimi K1.5

使用场景在数学竞赛中，Kimi k1.5 能够快速生成复杂的数学推理过程并给出答案。开发者可以利用 Kimi k1.5 生成高质量的代码片段，提升编程效率。教育...

模型训练与部署,代码助手,强化学习,多模态,推理,编程辅助,数学解题,中文精选,开源, 08月02日 0 0

点击加载更多