推理能力

资讯

北京大学推出新基准评测PHYBench，挑战AI物理推理能力！

最近，北京大学物理学院联合多个院系，推出了一项名为 “PHYBench” 的全新评测基准，旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长...

北京大,推理能力,AI 07月31日 0 0
资讯

北大、清华联合发布！大模型逻辑推理能力新突破

在当前人工智能领域，大语言模型（LLMs）取得了显著成就，但其逻辑推理能力依然显得不足。为了提升这一能力，来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学...

北大,大模型,清华,推理能力 07月31日 0 0
资讯

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力

近日，魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集，旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集...

数据,数学推理,语言模型,推理能力 07月31日 0 0
资讯

苹果再轰AI推理能力，GitHub大佬怒怼：这不是推理能力的真实面貌！

最近，苹果公司发布了一篇引发热议的论文，指出当前的大语言模型（LLM）在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议，尤其是 GitHub 的高级软件...

苹果,AI,推理能力,GitHub 07月31日 0 0
资讯

字节跳动推出 ProtoReasoning 框架：提升大语言模型的逻辑推理能力

近日，字节跳动的研究与上海交通大学的团队共同推出了名为 ProtoReasoning 的新框架，旨在通过逻辑原型来增强大语言模型（LLMs）的推理能力。该框架利...

字节,推理能力,大语言模型,语言模型 07月31日 0 0
资讯

昆仑万维重磅发布 Skywork-R1V 3.0：跨模态推理能力直逼人类专家！

近日，昆仑万维正式发布了其全新开源模型 Skywork-R1V3.0，宣称在多模态推理方面达到了前所未有的高度，甚至与人类初级专家的水平不相上下。该模型在训练过...

昆仑万维,推理能力 07月31日 0 0
资讯

讯飞星火X1升级版即将上线，深度推理能力再攀高峰

近日，科大讯飞通过其官方公众号宣布，备受关注的讯飞星火 X1升级版将于7月25日正式上线。这款深度推理大模型依托全国产算力进行训练，升级后的星火 X1将为用户带...

讯飞,星火,升级,上线,推理能力 07月31日 0 0
资讯

豆包App视觉推理能力升级图片分析支持深度思考

豆包App在视觉推理领域迎来重大升级，其图片分析功能现已支持深度思考模式，为用户带来前所未有的智能体验。用户只需在深度思考模式下拍摄或上传一张图片，豆包便能迅速...

豆包,视觉,推理能力,升级,深度思考 07月31日 0 0
资讯

OpenAI重磅推出开源模型GPT-OSS-120B与GPT-OSS-20B

2025年8月5日，OpenAI正式发布两款开源语言模型——GPT-OSS-120B和GPT-OSS-20B。这是自2019年GPT-2发布以来，OpenAI首...

GPT-OSS-120B,GPT-OSS-20B,OpenAI,工具使用,开源模型,推理能力,部署灵活性 08月08日 0 0
资讯

告别“静态”限制：全新3D视觉语言模型3D-R1如何平均提升10%推理能力？

在人工智能领域，视觉语言模型（VLM）近年来取得了显著进展，尤其是在二维视觉理解方面。随着这一领域的不断发展，研究人员们开始将目光投向3D 场景理解。然而，由于...

3D,视觉,语言模型,模型,推理能力 08月08日 0 0

点击加载更多