强化学习-未来号

资讯

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

在人工智能的不断发展中，扩散模型在推理能力上逐渐崭露头角，现如今，它们不再是自回归模型的 “跟随者”。近日，来自加州大学洛杉矶分校（UCLA）和 Meta 的研...

强化学习,应用 07月30日 0 0

资讯

学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石"

【研究颠覆】清华大学与上海交通大学联合发表的最新论文，对业界普遍认为"纯强化学习（RL）能提升大模型推理能力"的观点提出了挑战性反驳。研究发现，引入强化学习的模...

清华,大模型,强化学习 07月30日 0 0

资讯

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omn...

音频,问答,文本,强化学习,数据 07月30日 0 0

资讯

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期，谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作，开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调（RLFT）技...

谷歌,DeepMind,强化学习,AI,决策 07月30日 0 0

资讯

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型，性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B，这是一款专为长上下文推理设计的大型语言模型，标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3...

阿里,性能,Qwen,强化学习,文本,Claude 07月30日 0 0

资讯

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基...

强化学习,兼容性,Qwen 07月31日 0 0

资讯

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型...

字节,强化学习,ARIS,开源,数学推理 07月31日 0 0

资讯

微软发布Agent Lightning强化学习框架，声称可训练任何AI代理系统

微软研究院推出一款名为Agent Lightning的全新强化学习训练框架，旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计...

微软,Agent,AI,Light,强化学习,框架,代理 08月08日 0 0

资讯

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

前些天，OpenAI 少见地 Open 了一回，发布了两个推理模型 gpt-oss-120b 和 gpt-oss-20b。但是，这两个模型都是推理模型，Op...

Op,AI,开源,模型,强化学习 08月14日 0 0

资讯

AIGC报告：数字内容迎全新变革，版权伦理问题值得关注

2022年是，或生成式AI“Generative AI”爆发的一年。以OpenAI、Stability AI、Midjourney、NovaAI等为代表的企业和...

AI,,工具,AI技术,AI模型,AI绘画,ChatGPT,GPT,Midjourney,OpenAI,人工智能,元宇宙,内容生产,创新,发展趋势,宇宙,强化学习,生成式AI,英伟达,谷歌, 08月18日 0 0

强化学习

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石"

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型，性能媲美Claude-3.7

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

微软发布Agent Lightning强化学习框架，声称可训练任何AI代理系统

OpenAI没开源的gpt-oss基础模型，他去掉强化学习逆转出来了

AIGC报告：数字内容迎全新变革，版权伦理问题值得关注

猜你喜欢

人形机器人「朋友圈」的明牌和暗战

宇树科技专利侵权案一审判决：未构成侵权，原告败诉

OpenAI要刮油，谁会掉层皮？

用AI改造传统出行，这家公司推出万元级智能三轮车 | 涌现NewThings

刚刚，OpenAI Sora 2重磅登场！首个APP上线，或将成为AI时代新TikTok

字节信徒MiniMax

看360 - 吹响未来的号角！