多模态

图像

Univg

产品特色多条件交叉注意力偏置高斯噪声视频生成任务处理

AI视频生成,AI模型,视频生成,多模态,图像处理,普通产品,开源, 08月01日 0 0
创作

Honeybee

使用场景将Honeybee应用于基于图像的问答任务,以提高对视觉内容的理解在多模态基准测试中使用Honeybee作为预测头,评估语言模型的多模态理解能力将Hon...

AI模型,AI模型推理训练,多模态,语言模型,Transformer,PyTorch,普通产品,开源, 08月01日 0 0
图像

Yi VL 34B

产品特色多轮文本图像对话双语文本支持强大的图像理解能力细粒度图像分辨率

AI模型,AI图像检测识别,多模态,人工智能,图像识别,自然语言处理,开源,普通产品,开源, 08月01日 0 0
图像

UNIMO G

使用场景使用UNIMO-G模型生成包含多个图像实体的复杂多模态提示的高保真图像。利用UNIMO-G进行文本到图像的生成。UNIMO-G在零样本主题驱动合成方面表...

AI图像生成,AI模型,图像生成,多模态,条件扩散,普通产品,开源, 08月01日 0 0
创作

Speechgpt

使用场景使用SpeechGPT进行多模态对话生成利用SpeechGPT-Gen进行信息链语音生成使用SpeechTokenizer进行语音标记产品特色多模态内容...

AI语音合成,AI语音识别,语音,多模态,语言模型,人机交互,普通产品,开源, 08月01日 0 0
图像

Imp V1 3b

使用场景用于自然语言处理任务用于视觉问答任务用于多模态任务产品特色提供强大的多模态小语言模型具有30亿参数在多模态基准测试中表现优秀

AI模型,AI图像生成,多模态,语言模型,人工智能,普通产品,开源, 08月01日 0 0
图像

Qwen VL

使用场景将图片描述成文字回答关于图片的问题理解图片中的文字信息产品特色零样本图像描述视觉问答文本理解图像地标定位多语言支持细粒度图像理解

AI图像检测识别,AI模型,视觉,语言模型,Transformer,多模态,普通产品,开源, 08月01日 0 0
创作

Multi Modal Large Language Models

使用场景用于评估一个新的多模态大型语言模型在文本生成方面的性能用于评估一个开源MLLM在图像处理方面的可信度用于评估一个专有MLLM在视频内容理解方面的泛化能力...

AI模型评测,AI研究机构,MLLMs,评估工具,多模态,可信度,泛化能力,因果推理,普通产品,开源, 08月01日 0 0
图像

Mousi

使用场景MouSi在人工智能研究中被用于图像文本匹配。一家设计公司使用MouSi进行图像分割和处理。MouSi在学术界被应用于文本识别和位置编码研究。产品特色图...

AI模型,AI图像生成,多模态,视觉语言模型,人工智能,图像处理,普通产品,开源, 08月01日 0 0
创作

Gemini 1.5

使用场景可以与Gemini进行长时间的自然语言对话Gemini可以理解复杂的代码逻辑Gemini可以分析图像中对象的关系产品特色长篇语境理解支持多模态输入高效的...

AI模型,AI助手,AI,对话,理解,多模态,普通产品 08月01日 0 0

点击加载更多