多模态

  • Migician

    使用场景在多图像场景中,用户可以通过自然语言指令让模型定位特定物体或区域,例如在一组图片中找到共同出现的人物。研究人员可以使用 Migician 的模型和数据集...
    AI模型,图片生成,多模态,图像定位,自然语言处理,人工智能,开源,普通产品,开源, 08月02日 0 0
  • Vidorag

    使用场景在智能问答系统中,ViDoRAG 可以快速检索相关文档并生成准确答案。用于文档分析工具,帮助用户从大量视觉文档中提取关键信息。在内容创作平台中,ViDo...
    AI模型,研究工具,多模态,检索增强生成,动态迭代推理,视觉文档处理,自然语言处理,普通产品,开源, 08月02日 0 0
  • Unitok

    使用场景研究人员使用UniTok进行图像生成任务,以生成高质量的视觉内容。开发者利用UniTok构建多模态语言模型,用于视觉问答和图像分类。企业将UniTok集...
    AI模型,图片生成,人工智能,视觉生成,视觉理解,多模态,图像处理,深度学习,普通产品,开源, 08月02日 0 0
  • Egolife

    使用场景研究人员可以利用EgoLife数据集训练AI模型,以理解长期视频中的事件发展。开发者可以基于EgoLife的多模态数据开发新的视频分析工具,用于智能家居...
    个人助理,研究工具,AI,多模态,多视角,长期上下文,视频,社交互动,普通产品,开源, 08月02日 0 0
  • Aya Vision

    使用场景在旅行中拍摄艺术品,通过 Aya Vision 了解其风格和起源地区,促进跨文化交流。使用 Aya Vision 为多语言网站生成图像描述,提升用户体验...
    AI模型,图片生成,多语言,多模态,视觉模型,AI 研究,高效计算,国外精选 08月02日 0 0
  • Inception Labs

    使用场景开发者使用 Inception Labs 的模型进行代码生成和优化,提高开发效率。企业利用其模型构建智能客服系统,提供更快速、准确的客户支持。研究人员通...
    AI模型,开发与工具,人工智能,语言模型,扩散模型,多模态,高效推理,编程辅助,国外精选 08月02日 0 0
  • Smolvlm2

    使用场景视频创作者可以使用 SmolVLM2 生成视频的亮点和描述,用于视频剪辑和推广。教育工作者可以利用该模型生成视频课程的文本摘要,帮助学生更好地理解内容。...
    视频编辑,AI模型,视频分析,文本生成,多模态,轻量化,教育,内容创作,普通产品,开源, 08月02日 0 0
  • Openai Agents SDK

    使用场景Coinbase 使用 Agents SDK 快速原型化并部署 AgentKit,使 AI 智能体能够与加密钱包和链上活动无缝交互。Box 利用 Age...
    开发与工具,AI模型,人工智能,智能体,自动化,生产力,多模态,国外精选,开源, 08月02日 0 0
  • GO 1

    使用场景在商业环境中,GO-1可以快速适配服务机器人,完成清洁、搬运等任务。在工业领域,GO-1能够优化机器人操作流程,提高生产效率。在家庭场景中,GO-1可以...
    AI模型,机器人,具身智能,多模态,泛化能力,机器人,人工智能,中文精选 08月02日 0 0
  • R1 Omni

    使用场景在智能客服系统中,通过分析客户语音和视频中的情绪,提供更精准的服务。在心理健康应用中,通过分析用户的情绪表达,提供情绪疏导建议。在视频内容审核中,自动检...
    情感陪伴,客户服务,多模态,情绪识别,强化学习,可解释性,深度学习,模型,普通产品,开源, 08月02日 0 0