多模态

图像

Migician

使用场景在多图像场景中，用户可以通过自然语言指令让模型定位特定物体或区域，例如在一组图片中找到共同出现的人物。研究人员可以使用 Migician 的模型和数据集...

AI模型,图片生成,多模态,图像定位,自然语言处理,人工智能,开源,普通产品,开源, 08月02日 0 0
创作

Vidorag

使用场景在智能问答系统中，ViDoRAG 可以快速检索相关文档并生成准确答案。用于文档分析工具，帮助用户从大量视觉文档中提取关键信息。在内容创作平台中，ViDo...

AI模型,研究工具,多模态,检索增强生成,动态迭代推理,视觉文档处理,自然语言处理,普通产品,开源, 08月02日 0 0
图像

Unitok

使用场景研究人员使用UniTok进行图像生成任务，以生成高质量的视觉内容。开发者利用UniTok构建多模态语言模型，用于视觉问答和图像分类。企业将UniTok集...

AI模型,图片生成,人工智能,视觉生成,视觉理解,多模态,图像处理,深度学习,普通产品,开源, 08月02日 0 0
视频

Egolife

使用场景研究人员可以利用EgoLife数据集训练AI模型，以理解长期视频中的事件发展。开发者可以基于EgoLife的多模态数据开发新的视频分析工具，用于智能家居...

个人助理,研究工具,AI,多模态,多视角,长期上下文,视频,社交互动,普通产品,开源, 08月02日 0 0
创作

Aya Vision

使用场景在旅行中拍摄艺术品，通过 Aya Vision 了解其风格和起源地区，促进跨文化交流。使用 Aya Vision 为多语言网站生成图像描述，提升用户体验...

AI模型,图片生成,多语言,多模态,视觉模型,AI 研究,高效计算,国外精选 08月02日 0 0
开发

Inception Labs

使用场景开发者使用 Inception Labs 的模型进行代码生成和优化，提高开发效率。企业利用其模型构建智能客服系统，提供更快速、准确的客户支持。研究人员通...

AI模型,开发与工具,人工智能,语言模型,扩散模型,多模态,高效推理,编程辅助,国外精选 08月02日 0 0
创作

Smolvlm2

使用场景视频创作者可以使用 SmolVLM2 生成视频的亮点和描述，用于视频剪辑和推广。教育工作者可以利用该模型生成视频课程的文本摘要，帮助学生更好地理解内容。...

视频编辑,AI模型,视频分析,文本生成,多模态,轻量化,教育,内容创作,普通产品,开源, 08月02日 0 0
开发

Openai Agents SDK

使用场景Coinbase 使用 Agents SDK 快速原型化并部署 AgentKit，使 AI 智能体能够与加密钱包和链上活动无缝交互。Box 利用 Age...

开发与工具,AI模型,人工智能,智能体,自动化,生产力,多模态,国外精选,开源, 08月02日 0 0
创作

GO 1

使用场景在商业环境中，GO-1可以快速适配服务机器人，完成清洁、搬运等任务。在工业领域，GO-1能够优化机器人操作流程，提高生产效率。在家庭场景中，GO-1可以...

AI模型,机器人,具身智能,多模态,泛化能力,机器人,人工智能,中文精选 08月02日 0 0
服务

R1 Omni

使用场景在智能客服系统中，通过分析客户语音和视频中的情绪，提供更精准的服务。在心理健康应用中，通过分析用户的情绪表达，提供情绪疏导建议。在视频内容审核中，自动检...

情感陪伴,客户服务,多模态,情绪识别,强化学习,可解释性,深度学习,模型,普通产品,开源, 08月02日 0 0

点击加载更多