视觉

资讯

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中，视觉语言模型（VLMs）起着至关重要的作用，如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐，以实现更高效的信息处...

MIT,DeepMind,视觉,语言模型 07月30日 0 0
资讯

AI 视觉初创企业 Metropolis 以1. 25 亿美元收购 Oosto

最近，AI 领域的热潮并未让所有公司受益，部分初创企业仍在寻找出路。Metropolis，一家基于 AI 的停车平台，已收购了有争议的计算机视觉公司 Oosto...

AI,视觉,收购 07月30日 0 0
资讯

阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视...

阿里,通义,开源,Qwen,视觉,AI,Claude 07月30日 0 0
资讯

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容...

IBM,视觉,语言模型 07月30日 0 0
资讯

豆包：视频生成模型 “VideoWorld” 已开源实现纯视觉学习

据豆包大模型团队官方公众号消息，在北京交通大学和中国科学技术大学的联合研究下，由豆包大模型团队提出的 “VideoWorld” 视频生成实验模型近日正式开源。这...

豆包,视频,视觉,开源 07月30日 0 0
资讯

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多...

谷歌,DeepMind,视觉,数据,Web 07月30日 0 0
资讯

Realbotix发布机器人AI视觉系统，支持人脸识别与个性化互动

Realbotix 公司宣布推出其自主研发的 Realbotix 机器人 AI 视觉系统（ Realbotix Robotic AI Vision System...

机器人,AI,视觉,个性化 07月30日 0 0
资讯

微软团队推多模态AI模型Magma：整合视觉、语言和动作决策技能

近日，微软研究团队联合多所高校的研究人员，发布了一款名为 “Magma” 的多模态 AI 模型。这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型，以便...

微软,多模态,AI,整合,视觉,决策 07月30日 0 0
资讯

谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日，谷歌宣布推出一款全新的视觉 - 语言模型（Vision-Language Model， VLM），名为 PaliGemma2Mix。这款模型融合了图像处理...

谷歌,视觉,语言模型,开发者 07月30日 0 0
资讯

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解...

视觉,语言模型,多模态,AI 07月30日 0 0

点击加载更多