最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长...
北京大,推理能力,AI
07月31日
0
在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学...
北大,大模型,清华,推理能力
07月31日
0
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集...
数据,数学推理,语言模型,推理能力
07月31日
0
最近,苹果公司发布了一篇引发热议的论文,指出当前的大语言模型(LLM)在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议,尤其是 GitHub 的高级软件...
苹果,AI,推理能力,GitHub
07月31日
0
近日,字节跳动的研究与上海交通大学的团队共同推出了名为 ProtoReasoning 的新框架,旨在通过逻辑原型来增强大语言模型(LLMs)的推理能力。该框架利...
字节,推理能力,大语言模型,语言模型
07月31日
0
近日,昆仑万维正式发布了其全新开源模型 Skywork-R1V3.0,宣称在多模态推理方面达到了前所未有的高度,甚至与人类初级专家的水平不相上下。该模型在训练过...
昆仑万维,推理能力
07月31日
0
近日,科大讯飞通过其官方公众号宣布,备受关注的讯飞星火 X1升级版将于7月25日正式上线。这款深度推理大模型依托全国产算力进行训练,升级后的星火 X1将为用户带...
讯飞,星火,升级,上线,推理能力
07月31日
0
豆包App在视觉推理领域迎来重大升级,其图片分析功能现已支持深度思考模式,为用户带来前所未有的智能体验。用户只需在深度思考模式下拍摄或上传一张图片,豆包便能迅速...
豆包,视觉,推理能力,升级,深度思考
07月31日
0
2025年8月5日,OpenAI正式发布两款开源语言模型——GPT-OSS-120B和GPT-OSS-20B。这是自2019年GPT-2发布以来,OpenAI首...
GPT-OSS-120B,GPT-OSS-20B,OpenAI,工具使用,开源模型,推理能力,部署灵活性
08月08日
0
在人工智能领域,视觉语言模型(VLM)近年来取得了显著进展,尤其是在二维视觉理解方面。随着这一领域的不断发展,研究人员们开始将目光投向3D 场景理解。然而,由于...
3D,视觉,语言模型,模型,推理能力
08月08日
0