多模态

图像

Janus Pro 7B

使用场景图像生成：根据文本描述生成高质量图像文本理解：分析图像内容并生成文本描述多模态交互：结合文本和图像进行复杂任务处理产品特色支持多模态理解和生成，能够处理...

AI模型,图片生成,多模态,图像生成,文本理解,深度学习,人工智能,普通产品,开源, 08月02日 0 0
创作

MNN 大模型 Android App

使用场景用户可以通过该应用与 Qwen 模型进行对话，获取文本生成结果。用户可以上传图片，应用通过视觉模型生成对应的文本描述。用户可以录制音频，应用将其转录为文...

AI模型,个人助理,大语言模型,多模态,安卓应用,推理优化,数据隐私,优质新品,开源, 08月02日 0 0
图像

MILS

使用场景使用MILS为MS-COCO数据集中的图像生成描述为Clotho数据集中的音频生成描述为MSR-VTT数据集中的视频生成描述产品特色支持图像、音频和视频...

AI模型,研究工具,人工智能,多模态,图像描述,音频描述,视频描述,预训练模型,普通产品,开源, 08月02日 0 0
创作

Omnihuman 1

使用场景使用 OmniHuman-1 为虚拟主播生成自然流畅的演讲视频为音乐视频生成歌手的表演视频，支持多种音乐风格为动画角色生成逼真的动作和表情视频产品特色支...

视频生成,AI模型,人工智能,视频生成,多模态,虚拟人物,内容创作,普通产品,开源, 08月02日 0 0
创作

Gemini 2.0 Pro

使用场景开发者使用 Gemini Pro 生成复杂的 Python 代码，提高开发效率。研究人员利用 Gemini Pro 的多模态能力分析图像和视频数据。企业...

代码助手,AI模型,AI,编程,复杂任务,多模态,高性能,国外精选 08月02日 0 0
开发

Gemini 2.0 Family

使用场景开发者可以利用 Gemini 2.0 Flash 构建聊天机器人，提供高效、准确的对话体验。企业可以使用 Gemini 2.0 Pro 生成高质量的代码...

AI模型,开发平台,生成式 AI,编程,多模态,高性能,低延迟,国外精选 08月02日 0 0
图像

Qwen2.5 VL

使用场景在金融领域，Qwen2.5-VL 可以用于解析和提取发票、票据等文档中的关键信息，提高财务处理效率。在教育领域，该模型可以帮助教师快速生成教学材料，如解...

AI模型,AI信息平台,多模态,图像识别,视频理解,文档解析,智能代理,中文精选,开源, 08月02日 0 0
创作

Medrax

使用场景在Eurorad案例17576中，MedRAX正确识别了胸部X光片中的胸管类型，而其他模型因仅依赖单一信息而误判。在Eurorad案例16703中，Me...

医疗影像分析,AI模型,AI,医疗,胸部X光,推理,多模态,诊断,普通产品,开源, 08月02日 0 0
视频

Videorag

使用场景研究人员可以利用 VideoRAG 从大量的学术讲座视频中提取关键知识点，用于学术研究和教学。影视制作团队可以使用 VideoRAG 快速检索与特定主题...

视频编辑,AI信息平台,视频理解,检索增强,多模态,长视频处理,知识图谱,人工智能,普通产品,开源, 08月02日 0 0
学习

Clamp 3

使用场景通过文本描述检索音乐：输入如 'big band, major key, swing' 等关键词，检索到匹配的音乐。通过图像检索音乐：输入一幅婚礼场景的...

AI模型,音乐生成,音乐信息检索,多模态,多语言,对比学习,零样本分类,普通产品,开源, 08月02日 0 0

点击加载更多