首页
资讯
经验
教程
应用
登录
搜 索
ARIS
订阅
综合
图文
应用
资讯
字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现
近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型...
字节,强化学习,ARIS,开源,数学推理
07月31日
0
0
点击加载更多
猜你喜欢
人形机器人「朋友圈」的明牌和暗战
宇树科技专利侵权案一审判决:未构成侵权,原告败诉
OpenAI要刮油,谁会掉层皮?
用AI改造传统出行,这家公司推出万元级智能三轮车 | 涌现NewThings
刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
字节信徒MiniMax