多模态

视频

Lmms Finetune

使用场景研究人员使用lmms-finetune对LLaVA-1.5进行微调，以提高在特定视频内容分析任务上的性能。开发者利用该代码库将Phi-3-Vision模...

AI开发助手,AI模型,微调,多模态,视频模型,foundation-models,instruction-tuning,large-language-model,llava,visual-instruction-tuning,multimodal-large-language-models,large-multimodal-models,qwen-vl,llava-next,普通产品,开源, 08月01日 0 0
学习

MINT 1T

使用场景使用MINT-1T预训练的XGen-MM多模态模型在图像说明和视觉问答任务中表现优异。在多学科多模态理解和推理基准（MMMU）上，MINT-1T在科学和...

模型训练与部署,研究工具,多模态,数据集,深度学习,人工智能,优质新品 08月01日 0 0
创作

Gemini Pro

使用场景使用Gemini Pro分析并总结阿波罗11号登月任务的402页任务记录。利用Gemini Pro在100,000行代码中进行推理，提供解决方案和改进建...

AI模型,AI模型推理训练,AI模型,多模态,长上下文,代码生成,数学问题解决,编辑推荐 08月01日 0 0
开发

Wordware

使用场景使用Wordware创建一个问答应用，通过GPT模型评估最佳答案生成个性化的个人网站，包括研究、图像生成、诗歌创作和网页托管快速为风险投资家准备与创始人...

开发与工具,AI模型,自然语言编程,AI开发,无代码,多模态,团队协作,普通产品 08月01日 0 0
图像

Minicpm V 2.6

使用场景研究人员使用MiniCPM-V 2.6进行图像识别和分类任务。开发者利用模型进行实时视频字幕生成和内容分析。企业采用该模型优化其产品中的图像和视频处理功...

AI模型,AI图像生成,多模态,图像理解,视频处理,OCR,多语言支持,普通产品,开源, 08月01日 0 0
图像

Lumina Mgpt

使用场景研究人员使用Lumina-mGPT生成特定场景的逼真图像。开发者利用模型进行图像到图像的任务转换，如风格迁移。教育领域使用该模型教授学生关于AI图像处理...

AI图像生成,AI模型,多模态,图像生成,自回归模型,普通产品,开源, 08月01日 0 0
图像

Medtrinity 25M

使用场景研究人员使用MedTrinity-25M数据集训练了一个能够识别医学图像中病变的深度学习模型。开发者利用该数据集开发了一个自动生成医学图像报告的系统。教...

AI医疗健康,AI数据集,医学图像,多模态,数据集,自然语言处理,机器学习,普通产品,开源, 08月01日 0 0
图像

Llava OneVision

使用场景研究人员使用LLaVA-OneVision模型来提高自动驾驶车辆对周围环境的理解能力。开发者利用该模型在社交媒体平台上自动标记和描述用户上传的视频内容。...

AI模型,AI图像生成,多模态,视觉识别,人工智能,图像处理,视频分析,普通产品,开源, 08月01日 0 0
图像

Phi 3.5 Vision

使用场景在办公自动化中，对多页文档进行摘要生成。在教育领域，对教学幻灯片进行内容分析和知识点提取。在内容创作中，对图像集合进行比较和故事叙述。产品特色支持多帧图...

AI模型,AI模型推理训练,多模态,图像理解,文本生成,机器学习,AI研究,普通产品,开源, 08月01日 0 0
图像

Mplug Owl3

使用场景用于研究视觉问答的学术项目在视频内容分析中的应用作为多模态数据处理的模型基础产品特色从检索系统学习知识与用户进行图文交替对话观看并记忆长视频细节支持视觉...

AI模型,AI图像生成,多模态,图像理解,视频分析,大型语言模型,普通产品,开源, 08月01日 0 0

点击加载更多