多模态

创作

Zerobench

使用场景研究人员可以使用 ZeroBench 来评估和改进他们的多模态模型性能。开发者可以利用 ZeroBench 的数据集和代码，开发更强大的视觉推理算法。企...

AI模型,研究工具,多模态,基准测试,视觉理解,人工智能,模型评估,普通产品,开源, 08月02日 0 0
开发

Deepseek Japanese

使用场景在编程领域，开发者可以利用 DeepSeek 自动生成代码片段、优化现有代码并解决复杂的编程问题。在教育领域，DeepSeek 可以作为智能辅导工具，帮...

AI模型,开发与工具,AI,语言模型,编程辅助,开源,多模态,教育,高效推理,普通产品 08月02日 0 0
图像

Magma 8B

使用场景在 UI 导航任务中，Magma-8B 能够根据图像输入生成正确的操作指令，如点击特定按钮。在机器人操作任务中，模型可以根据视频输入生成机械臂的操作路径...

AI模型,研究工具,多模态,AI,图像,文本生成,机器人操作,研究,普通产品,开源, 08月02日 0 0
创作

Phi 4 Multimodal Instruct

使用场景作为语音助手，为用户提供多语言语音翻译和语音问答服务在教育领域，通过视觉和语音输入辅助学生学习数学和科学知识用于内容创作，根据图像或音频输入生成相关的文...

AI模型,多模态,多模态,语音识别,视觉问答,多语言,AI模型,优质新品,开源, 08月02日 0 0
视频

Gemini 2.0 Flash Lite

使用场景Daily 使用 Gemini 2.0 Flash-Lite 构建语音助手，通过 Pipecat 框架实现快速响应和复杂指令处理。Dawn 利用 Gem...

AI模型,开发平台,AI,语言模型,长文本处理,多模态,数据分析,视频编辑,语音助手,优质新品 08月02日 0 0
视频

Theoremexplainagent

使用场景为数学中的勾股定理生成详细的动画解释视频，帮助学生理解其几何意义。为物理中的几何布朗运动生成可视化视频，展示其动态过程。为计算机科学中的梯度下降算法生成...

学习教育,视频生成,人工智能,教育,多模态,STEM,定理解释,视频生成,普通产品,开源, 08月02日 0 0
图像

M2RAG

使用场景研究人员可以使用M2RAG评估多模态大语言模型在图像描述任务中的性能。开发者可以利用M2RAG提供的代码和数据集，快速复现多模态检索增强生成的实验结果。...

AI模型,研究工具,多模态,检索增强生成,大语言模型,基准测试,图像,问答,事实验证,普通产品,开源, 08月02日 0 0
创作

Mochii AI

使用场景开发人员使用 Mochii AI 的代码生成和审查功能，显著提升开发效率。产品经理利用其智能助手功能，快速编写技术文档和用户故事。营销人员通过 Moch...

个人助理,AI信息平台,人工智能,生产力工具,多模态,智能对话,内容创作,中文精选 08月02日 0 0
图像

Migician

使用场景在多图像场景中，用户可以通过自然语言指令让模型定位特定物体或区域，例如在一组图片中找到共同出现的人物。研究人员可以使用 Migician 的模型和数据集...

AI模型,图片生成,多模态,图像定位,自然语言处理,人工智能,开源,普通产品,开源, 08月02日 0 0
创作

Vidorag

使用场景在智能问答系统中，ViDoRAG 可以快速检索相关文档并生成准确答案。用于文档分析工具，帮助用户从大量视觉文档中提取关键信息。在内容创作平台中，ViDo...

AI模型,研究工具,多模态,检索增强生成,动态迭代推理,视觉文档处理,自然语言处理,普通产品,开源, 08月02日 0 0

点击加载更多