多模态

图像

Qwen2 VL 2B

使用场景- 利用Qwen2-VL-2B进行文档的视觉问答，提高信息检索的效率。- 将Qwen2-VL-2B集成到机器人中，使其能够根据视觉环境和指令执行任务。-...

AI模型,视频生成,视觉语言模型,多模态,图像理解,视频理解,文本生成,多语言支持,普通产品,开源, 08月02日 0 0
视频

Qwen2 VL 7B

使用场景案例一：使用Qwen2-VL-7B进行视频内容的自动摘要和问题回答。案例二：集成Qwen2-VL-7B到移动应用中，实现基于图像的搜索和推荐。案例三：利...

AI模型,视频生成,视觉语言模型,多模态,文本生成,视频理解,多语言支持,普通产品,开源, 08月02日 0 0
图像

Internvl2 5 78B

使用场景使用InternVL2_5-78B进行图像描述生成，将图像内容转化为文字描述。在多图像理解任务中，利用InternVL2_5-78B分析和比较不同图像之...

AI模型,多模态模型,多模态,大型语言模型,视觉感知,图像-文本转换,机器学习,普通产品,开源, 08月02日 0 0
图像

Internvl2 5 38B

使用场景用于图像和文本的联合理解任务，如图像描述生成。在视频内容分析中，用于理解视频内容并生成视频摘要。作为聊天机器人的底层技术，提供图像和文本交互的能力。产品...

AI模型,AI信息平台,多模态,大型语言模型,图像识别,视频分析,自然语言处理,普通产品,开源, 08月02日 0 0
创作

Internvl2 5 26B

使用场景使用InternVL2_5-26B进行图像描述和理解，提升图像检索系统的准确性。在视频内容分析中应用InternVL2_5-26B，实现视频内容的自动标...

AI模型,多模态模型,多模态,大型语言模型,视觉Transformer,预训练模型,Hugging Face,普通产品,开源, 08月02日 0 0
图像

Internvl2 5 8B

使用场景- 使用InternVL2_5-8B进行图像描述和图像问答。- 利用模型进行多语言的图像标注和分类。- 将模型应用于视频内容的理解和分析。产品特色- 动...

AI模型,多模态,多模态,大型语言模型,图像-文本-文本,Transformers,TensorBoard,Safetensors,多语言,普通产品,开源, 08月02日 0 0
图像

Internvit 6B 448px V2 5

使用场景案例一：使用InternViT-6B-448px-V2_5进行图像分类，识别图像中的主要对象。案例二：在多语言文档处理中，利用模型进行OCR数据的识别和...

AI模型,图片编辑,视觉模型,特征提取,多模态,OCR,图像识别,普通产品,开源, 08月02日 0 0
创作

Mammoth VL

使用场景研究人员使用MAmmoTH-VL数据集训练MLLMs，以提高模型在数学问题解答任务中的表现。教育工作者利用MAmmoTH-VL平台设计课程，帮助学生理解...

AI模型,研究工具,多模态,推理,指令调优,数据集,教育,研究,普通产品,开源, 08月02日 0 0
创作

Gemini 2.0

使用场景开发者利用Gemini 2.0创建能够理解和执行复杂任务的智能应用。用户通过Gemini 2.0获得更加个性化的搜索结果和建议。企业通过集成Gemini...

个人助理,AI模型,AI,智能助理,多模态,推理,搜索,代码执行,全球热门 08月02日 0 0
开发

Gemini 2.0 Flash

使用场景tldraw的视觉游乐场，使用Gemini 2.0 Flash原型化新体验。Viggle的虚拟角色创建和音频叙述，通过Gemini 2.0 Flash实...

AI模型,开发平台,AI,开发,代码辅助,多模态,实时应用,国外精选 08月02日 0 0

点击加载更多