最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长...
北京大,推理能力,AI
07月31日
0
在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学...
北大,大模型,清华,推理能力
07月31日
0
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集...
数据,数学推理,语言模型,推理能力
07月31日
0
最近,苹果公司发布了一篇引发热议的论文,指出当前的大语言模型(LLM)在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议,尤其是 GitHub 的高级软件...
苹果,AI,推理能力,GitHub
07月31日
0
近日,字节跳动的研究与上海交通大学的团队共同推出了名为 ProtoReasoning 的新框架,旨在通过逻辑原型来增强大语言模型(LLMs)的推理能力。该框架利...
字节,推理能力,大语言模型,语言模型
07月31日
0
近日,昆仑万维正式发布了其全新开源模型 Skywork-R1V3.0,宣称在多模态推理方面达到了前所未有的高度,甚至与人类初级专家的水平不相上下。该模型在训练过...
昆仑万维,推理能力
07月31日
0
近日,科大讯飞通过其官方公众号宣布,备受关注的讯飞星火 X1升级版将于7月25日正式上线。这款深度推理大模型依托全国产算力进行训练,升级后的星火 X1将为用户带...
讯飞,星火,升级,上线,推理能力
07月31日
0
豆包App在视觉推理领域迎来重大升级,其图片分析功能现已支持深度思考模式,为用户带来前所未有的智能体验。用户只需在深度思考模式下拍摄或上传一张图片,豆包便能迅速...
豆包,视觉,推理能力,升级,深度思考
07月31日
0
使用场景用于构建智能客服系统,提供24小时自动回复服务。作为个人助理,帮助用户管理日程和提醒重要事项。在教育领域,辅助学生学习,提供个性化的学习建议和答疑。产品...
AI聊天机器人,AI模型,对话模型,推理能力,长文本处理,信息搜集,开源,普通产品,开源,
08月01日
0
使用场景研究人员使用模型进行数学问题解答企业利用模型进行客户服务的自动化对话开发者通过模型实现个性化的聊天机器人产品特色支持1M超长上下文窗口,适合长文本任务处...
AI模型,AI聊天机器人,AI,对话模型,长文本处理,推理能力,普通产品,开源,
08月01日
0