多模态

学习

Kimi K1.5

使用场景在数学竞赛中，Kimi k1.5 能够快速生成复杂的数学推理过程并给出答案。开发者可以利用 Kimi k1.5 生成高质量的代码片段，提升编程效率。教育...

模型训练与部署,代码助手,强化学习,多模态,推理,编程辅助,数学解题,中文精选,开源, 08月02日 0 0
开发

Gemini 2.0 Flash Thinking Experimental

使用场景开发者可以利用 Gemini Flash Thinking 构建智能教育工具，帮助学生理解复杂的数学和科学问题。企业可以将其集成到自动化系统中，用于处理...

研究工具,开发与工具,AI,推理,多模态,长文本,代码执行,复杂任务,编辑推荐 08月02日 0 0
开发

Doubao 1.5 Pro

使用场景在智能客服场景中，通过语音多模态能力实现自然流畅的语音交互，提升用户体验。在图像识别任务中，利用视觉多模态能力快速准确地识别和理解复杂图像内容。在编程辅...

AI模型,开发与工具,大语言模型,多模态,高效推理,动态调整,自主数据标注,中文精选 08月02日 0 0
创作

UI TARS

使用场景在软件测试中，UI-TARS 可以自动检测和修复 GUI 中的问题。在自动化办公场景中，UI-TARS 可以自动完成文档处理、数据输入等任务。在网页自动...

自动化工作流,AI模型,人工智能,自动化,GUI,多模态,推理,定位,跨平台,中文精选,开源, 08月02日 0 0
图像

Videollama3

使用场景在视频内容分析中，用户可以上传视频并获取详细的自然语言描述，帮助快速理解视频内容。用于视觉问答任务，用户可以输入问题并结合视频或图像获取准确的答案。在多...

视频生成,AI模型,多模态,视频理解,图像理解,自然语言处理,深度学习,普通产品,开源, 08月02日 0 0
图像

Smolvlm 500M Instruct

使用场景在移动设备上快速生成图像描述，帮助用户理解图像内容。为图像识别应用提供视觉问答功能，增强用户体验。在嵌入式设备上实现简单的文本转录功能，用于图像中的文字...

AI模型,图片生成,多模态,图像描述,视觉问答,轻量级,开源,高效,普通产品,开源, 08月02日 0 0
图像

Smolvlm 256M Instruct

使用场景在图像问答应用中，用户上传一张图片并提出问题，模型可根据图片内容回答问题。用于社交媒体平台的图像字幕生成，自动为用户上传的图片生成吸引人的字幕。在教育领...

AI模型,图片生成,多模态,图像处理,文本生成,高效,轻量化,普通产品,开源, 08月02日 0 0
学习

CUA

使用场景通过 Operator，CUA 可以帮助用户在网页上完成复杂的多步骤任务，如搜索信息、填写表单和预订服务。CUA 能够在不同的操作系统和网页环境中导航，...

个人助理,自动化工作流,AI,多模态,自动化,生产力,强化学习,全球热门 08月02日 0 0
创作

Humanity's Last Exam

使用场景研究人员可以使用该基准测试来评估和比较不同语言模型在学术领域的表现，从而选择更适合的模型。开发团队可以利用测试结果发现模型的弱点，针对性地改进算法，提升...

AI模型,研究工具,人工智能,基准测试,多模态,学术评估,模型性能,普通产品 08月02日 0 0
图像

Janus Pro 1B

使用场景在图像描述生成任务中，输入一张图片，模型可以自动生成准确的描述文本。在文本到图像生成任务中，输入一段文本描述，模型可以生成对应的图像。在多模态问答任务中...

AI模型,开发平台,多模态,图像生成,自然语言处理,Transformer,开源,深度学习,普通产品,开源, 08月02日 0 0

点击加载更多