多模态

图像

Any GPT

产品特色支持语音、文本、图像和音乐多种模态的输入和输出可以进行多轮多模态交织的对话在各个模态上都能达到专用模型的水平

AI模型,多模态,聊天机器人,语音识别,语音合成,图像生成,普通产品,开源, 08月01日 0 0
大模型

Llama 3

使用场景基于Llama 3开发智能对话机器人,为客户提供自动问答服务。利用Llama 3生成高质量文案内容,辅助内容创作者工作。将Llama 3集成到IDE中,...

AI模型,AI语言模型,大模型,开源,自然语言处理,多语种,多模态,普通产品 08月01日 0 0
创作

Navaiguide

使用场景用于识别网页中的特定元素并执行操作。用于识别App界面并执行特定动作。用于执行重复性任务的自动化工具。产品特色视觉任务检测高级代码选择器面向动作的执行鲁...

AI Agents,AI自动化工作流,智能框架,视觉识别,自动化,多模态,普通产品,开源, 08月01日 0 0
创作

MM1

使用场景苹果MM1模型在图像描述生成任务上取得显著性能提升MM1模型在视觉问答任务中展现出出色的表现苹果发布的多模态LLM模型MM1备受瞩目产品特色30B规模的...

AI模型,AI语言模型,苹果,LLM,多模态,预训练,普通产品 08月01日 0 0
图像

Griffon

使用场景用于图像本地化任务支持目标计数和检测实现视觉/短语定位产品特色REC目标检测目标计数视觉/短语定位REG

AI图像检测识别,AI模型,多模态,高分辨率,LVLM,视觉语言共指,普通产品,开源, 08月01日 0 0
图像

Minigemini

使用场景根据给定的图像内容回答相关问题生成图像的文字描述根据指令对图像进行编辑生成新图像产品特色低分辨率/高分辨率双视觉编码器补丁级信息挖掘基于大型语言模型的图...

AI图像生成,AI模型,多模态,视觉语言模型,大型语言模型,图像理解,图像生成,普通产品,开源, 08月01日 0 0
创作

Mmstar

使用场景研究人员可以使用MMStar评估自己训练的视觉语言模型在不同视觉语言任务上的表现。模型开发者可以通过MMStar发现自己模型存在的数据泄露问题,并采取相...

AI模型评测,AI学术研究,视觉语言模型,基准测试,多模态,人工审查,数据泄露,评估指标,普通产品,开源, 08月01日 0 0
创作

Mplug DocOwl

使用场景处理文档视觉问答任务进行信息问答任务解决图表问答问题产品特色支持文档视觉问答支持信息问答支持图表问答模块化多模态大语言模型

AI模型,AI文档工具,文档理解,多模态,大语言模型,普通产品,开源, 08月01日 0 0
开发

Fireworks AI

使用场景Chat LLM 模型推理FireFunction V1 模型推理Llama 2 70B Chat 模型推理产品特色提供 Chat LLM、Mixtra...

模型训练与部署,AI模型,AI,开发者,模型,推理,多模态,普通产品 08月01日 0 0
视频

MA LMM

使用场景在长视频数据集上评估MA-LMM的长期视频理解能力在视频问答任务中使用MA-LMM进行问题回答将MA-LMM集成到视频字幕生成系统中,提升字幕生成质量产...

AI视频生成,AI视频编辑,视频理解,多模态,大语言模型,记忆库,在线处理,普通产品,开源, 08月01日 0 0

点击加载更多