多模态

开发

Infini Megrez

使用场景案例一：开发者使用Infini-Megrez模型进行图像识别和语音交互，开发智能家居控制系统。案例二：企业利用Infini-Megrez模型进行OCR识...

AI模型,开发与工具,人工智能,深度学习,多模态,端侧智能,软硬协同,普通产品,开源, 08月02日 0 0
创作

The Language Of Motion

使用场景游戏开发者使用该模型为游戏角色生成自然的动作和手势，提升游戏的沉浸感。电影制作中，利用模型根据剧本生成角色的动作，加快动画制作流程。虚拟现实应用中，通过...

AI角色生成,3D建模,3D人体动作,多模态,语言模型,虚拟角色,自然交流,普通产品,开源, 08月02日 0 0
服务

Gemini Multimodal Live + WebRTC

使用场景构建一个实时语音聊天应用，使用户能够通过Web浏览器进行通信开发一个集成语音识别和语音合成的客服系统创建一个在线教育平台，支持教师和学生之间的实时互动产...

开发与工具,API服务,WebRTC,Gemini,多模态,实时通信,开源,普通产品,开源, 08月02日 0 0
图像

Internvl2 8B MPO

使用场景在MathVista数据集上进行准确率测试，达到67.0%的准确率。使用InternVL2-8B-MPO进行图像描述生成，提供详细的图像内容描述。在多图...

AI模型,研究工具,多模态,大语言模型,推理,混合偏好优化,图像-文本-文本,普通产品,开源, 08月02日 0 0
图像

Internvl2 5 1B MPO

使用场景使用InternVL2_5-1B-MPO生成对一组图像的详细描述基于视频帧提取关键信息，生成视频内容摘要在视觉问答任务中，根据图像内容回答具体问题产品特...

AI模型,多模态模型,多模态,大型语言模型,视觉问答,图像描述,自然语言处理,普通产品,开源, 08月02日 0 0
图像

Internvl2 5 2B MPO

使用场景使用模型对一组图片进行描述，生成详细的图像说明。在视觉问答任务中，根据用户提供的图像和问题，模型能够提供准确的答案。在视频内容分析中，模型能够理解视频内...

AI模型,多模态,多模态,大型语言模型,图像处理,自然语言处理,普通产品,开源, 08月02日 0 0
大模型

Flagai

使用场景研究人员使用FlagAI进行语言模型的高效训练和微调。开发者利用FlagAI提供的代码生成功能，加速软件开发过程。企业用户通过FlagAI集成的视觉大模...

模型训练与部署,AI模型,人工智能,大模型,开源项目,自然语言处理,计算机视觉,多模态,普通产品 08月02日 0 0
视频

Ditctrl

使用场景生成一个关于‘一只猫看着一只黑色的老鼠’的视频，展示不同提示间的平滑过渡。通过DiTCtrl生成一个长视频，内容为‘海洋中的鱼’，展示视频的连贯性和动态...

视频生成,AI模型,视频生成,多模态,扩散变换器,无需训练,多提示,连贯性,普通产品,开源, 08月02日 0 0
图像

Valley

使用场景社交媒体平台使用Valley分析用户上传的图片和视频内容，以提供更精准的内容推荐。电商平台利用Valley对商品图片进行分析，以优化商品展示和搜索结果。...

AI模型,AI信息平台,多模态,大型模型,图像处理,视频分析,人工智能,普通产品,开源, 08月02日 0 0
图像

Valley Eagle 7B

使用场景电商平台使用Valley-Eagle-7B分析用户评论和产品图片，以优化产品推荐算法。视频平台利用Valley-Eagle-7B进行内容审核，自动识别和...

AI模型,多模态,多模态,大型模型,文本处理,图像识别,视频分析,普通产品,开源, 08月02日 0 0

点击加载更多