多模态

  • Qwen2 VL 2B

    使用场景- 利用Qwen2-VL-2B进行文档的视觉问答,提高信息检索的效率。- 将Qwen2-VL-2B集成到机器人中,使其能够根据视觉环境和指令执行任务。-...
    AI模型,视频生成,视觉语言模型,多模态,图像理解,视频理解,文本生成,多语言支持,普通产品,开源, 08月02日 0 0
  • Qwen2 VL 7B

    使用场景案例一:使用Qwen2-VL-7B进行视频内容的自动摘要和问题回答。案例二:集成Qwen2-VL-7B到移动应用中,实现基于图像的搜索和推荐。案例三:利...
    AI模型,视频生成,视觉语言模型,多模态,文本生成,视频理解,多语言支持,普通产品,开源, 08月02日 0 0
  • Internvl2 5 78B

    使用场景使用InternVL2_5-78B进行图像描述生成,将图像内容转化为文字描述。在多图像理解任务中,利用InternVL2_5-78B分析和比较不同图像之...
    AI模型,多模态模型,多模态,大型语言模型,视觉感知,图像-文本转换,机器学习,普通产品,开源, 08月02日 0 0
  • Internvl2 5 38B

    使用场景用于图像和文本的联合理解任务,如图像描述生成。在视频内容分析中,用于理解视频内容并生成视频摘要。作为聊天机器人的底层技术,提供图像和文本交互的能力。产品...
    AI模型,AI信息平台,多模态,大型语言模型,图像识别,视频分析,自然语言处理,普通产品,开源, 08月02日 0 0
  • Internvl2 5 26B

    使用场景使用InternVL2_5-26B进行图像描述和理解,提升图像检索系统的准确性。在视频内容分析中应用InternVL2_5-26B,实现视频内容的自动标...
    AI模型,多模态模型,多模态,大型语言模型,视觉Transformer,预训练模型,Hugging Face,普通产品,开源, 08月02日 0 0
  • Internvl2 5 8B

    使用场景- 使用InternVL2_5-8B进行图像描述和图像问答。- 利用模型进行多语言的图像标注和分类。- 将模型应用于视频内容的理解和分析。产品特色- 动...
    AI模型,多模态,多模态,大型语言模型,图像-文本-文本,Transformers,TensorBoard,Safetensors,多语言,普通产品,开源, 08月02日 0 0
  • Internvit 6B 448px V2 5

    使用场景案例一:使用InternViT-6B-448px-V2_5进行图像分类,识别图像中的主要对象。案例二:在多语言文档处理中,利用模型进行OCR数据的识别和...
    AI模型,图片编辑,视觉模型,特征提取,多模态,OCR,图像识别,普通产品,开源, 08月02日 0 0
  • Mammoth VL

    使用场景研究人员使用MAmmoTH-VL数据集训练MLLMs,以提高模型在数学问题解答任务中的表现。教育工作者利用MAmmoTH-VL平台设计课程,帮助学生理解...
    AI模型,研究工具,多模态,推理,指令调优,数据集,教育,研究,普通产品,开源, 08月02日 0 0
  • Gemini 2.0

    使用场景开发者利用Gemini 2.0创建能够理解和执行复杂任务的智能应用。用户通过Gemini 2.0获得更加个性化的搜索结果和建议。企业通过集成Gemini...
    个人助理,AI模型,AI,智能助理,多模态,推理,搜索,代码执行,全球热门 08月02日 0 0
  • Gemini 2.0 Flash

    使用场景tldraw的视觉游乐场,使用Gemini 2.0 Flash原型化新体验。Viggle的虚拟角色创建和音频叙述,通过Gemini 2.0 Flash实...
    AI模型,开发平台,AI,开发,代码辅助,多模态,实时应用,国外精选 08月02日 0 0