视觉

图像

Internvl

使用场景使用InternViT-6B进行图像分类使用InternVL-C进行图像文本检索使用InternVL-Chat进行视觉问答产品特色图像分类语义分割视频分...

AI模型,AI图像生成,开源,基础模型,视觉,语言模型,普通产品,开源, 08月01日 0 0
图像

A Vision Check Up

使用场景使用该论文提出的方法评估自然语言处理模型对图像概念的理解能力利用文本生成图像并进行纠正使用 LLMs 训练视觉模型进行图像分类产品特色评估 LLMs 生...

AI学术研究,AI图像生成,语言模型,视觉,图像生成,自监督学习,普通产品,开源, 08月01日 0 0
图像

Moondream

产品特色使用SigLIP、Phi-1.5和LLaVA训练数据集构建的16亿参数模型权重受CC-BY-SA许可证保护在Huggingface Spaces上可用

AI模型,视觉,语言模型,图像处理,普通产品,开源, 08月01日 0 0
图像

Qwen VL

使用场景将图片描述成文字回答关于图片的问题理解图片中的文字信息产品特色零样本图像描述视觉问答文本理解图像地标定位多语言支持细粒度图像理解

AI图像检测识别,AI模型,视觉,语言模型,Transformer,多模态,普通产品,开源, 08月01日 0 0
图像

Phi 3 Vision 128k Instruct

使用场景用于教育领域，帮助学生理解复杂概念。在商业环境中，用于图像和文本数据的分析和处理。在研究中，作为生成AI功能的强大基础模型。产品特色4.2B参数，包含图...

AI模型,AI图像生成,多模态,高质量,推理,视觉,文本,优质新品 08月01日 0 0
创作

Minicpm O

使用场景在教育领域，教师可以利用MiniCPM-o 2.6创建互动式教学内容，通过语音和视觉辅助提高学生的学习体验。内容创作者可以使用该模型生成创意视频脚本，结...

AI模型,多模态,多模态,语言模型,视觉,语音,直播,优质新品,开源, 08月02日 0 0
资讯

微软Edge浏览器升级！Copilot模式解锁AI新体验，多标签RAG+视觉辅助炸裂登场 ...

近日，微软宣布为其Edge浏览器推出革命性的 Copilot模式，通过集成先进的AI功能，为用户带来前所未有的浏览体验。AIbase编辑团队整理了来自网络的最新...

微软,Edge,升级,Copilot,AI,体验,RAG,视觉 08月04日 0 0
资讯

告别“静态”限制：全新3D视觉语言模型3D-R1如何平均提升10%推理能力？

在人工智能领域，视觉语言模型（VLM）近年来取得了显著进展，尤其是在二维视觉理解方面。随着这一领域的不断发展，研究人员们开始将目光投向3D 场景理解。然而，由于...

3D,视觉,语言模型,模型,推理能力 08月08日 0 0
资讯

北京团队突破！全球首个人形机器人3D视觉系统诞生，多传感器融合技术领跑世界

人形机器人正在从科幻走向现实，而视觉感知能力一直是制约其发展的关键瓶颈。近日，北京人形机器人创新中心宣布推出名为"Humanoid Occupancy"的革命性...

北京,人形机器,机器,3D,视觉 08月08日 0 0
资讯

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 近日发布并开源了其首个自研多模态大模型 dots.vlm1。该模型基于12亿参数的 NaViT 视觉编码器和 DeepSeek V3大语...

小红书,开源,多模态,模型,大模型,dots.vlm1,视觉,编码 08月08日 0 0

点击加载更多