-
攻克AI推理难题,清华团队提出「统一LLM强化学习新范式」ReST-RL
大语言模型(LLM)真的会推理吗?业内对此争论不休。 这是因为,当前的 LLM 在面对复杂代码、多步逻辑和抽象任务时依然经常“翻车”,表现出逻辑跳跃、步骤混乱... -
对AI的恐惧被夸大了,“强化学习之父”萨顿外滩演讲:四条原则预言AI未来
智东西9月11日报道,今日上午,在2025 Inclusion·外滩大会开幕式上,2024年图灵奖得主、“强化学习之父”理查德·萨顿(Richard Sutto... -
DeepSeek-R1开创历史,梁文锋论文登上《自然》封面
9月17日,国际权威期刊《自然》(Nature)以封面形式发表了由杭州人工智能企业 DeepSeek 团队独立完成的开源推理模型研究论文,通讯作者为 DeepS... -
斯坦福研究团队发布 AgentFlow:为模块化、工具使用的 AI 代理提供新一代强化学习框架 ...
斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 AI 的智能决策能力。AgentFlow ...
