深度学习

音频

Nes2net

使用场景使用 Nes2Net 检测深度假造的音频文件，确保音频的真实性。在学术研究中使用预训练模型来提高语音识别的准确性。企业通过 Nes2Net 进行音频内容...

安全,语音识别,反欺诈,语音处理,深度学习,音频分析,机器学习,普通产品,开源, 08月02日 0 0
图像

Flex.2 Preview

使用场景使用 Flex.2 生成插画和艺术作品。利用内置重绘功能修改现有图像。根据用户提供的姿势图生成定制化角色设计。产品特色8 亿参数，能够生成高质量图像。内...

图片生成,AI模型,人工智能,图像生成,开源,深度学习,社区驱动,国外精选,开源, 08月02日 0 0
图像

Describe Anything

使用场景为自动驾驶系统生成周围环境的详细描述。为视频监控系统提供重要事件的实时文字记录。帮助用户快速识别和描述图像中的物体和场景。产品特色支持从图像和视频中提取...

图片生成,视频生成,图像描述,视频处理,深度学习,计算机视觉,自然语言处理,普通产品,开源, 08月02日 0 0
音频

Kimi Audio

使用场景在语音助手中集成 Kimi-Audio，提升其对用户语音指令的理解能力。利用 Kimi-Audio 进行音频内容的自动转录，为播客和视频内容提供字幕。通...

语音识别,模型训练与部署,开源,音频处理,模型,深度学习,语音识别,编辑推荐,开源, 08月02日 0 0
图像

F Lite

使用场景为社交媒体创建视觉内容，提升品牌影响力。为广告公司快速生成宣传材料和图像。为开发者提供图像素材，丰富应用程序的用户体验。产品特色生成高质量图像：F Li...

图片生成,AI模型,图像生成,深度学习,开源,AI 模型,设计工具,国外精选,开源, 08月02日 0 0
视频

Camerabench

使用场景使用 CameraBench 分析舞蹈视频中相机的运动模式。在教学中使用 CameraBench 帮助学生理解相机运动与场景关系。开发者利用 Camer...

研究工具,视频编辑,视频分析,相机运动,计算机视觉,深度学习,开源模型,普通产品,开源, 08月02日 0 0
开发

Parakeet Tdt 0.6b V2

使用场景用于语音助手中的实时转录。在教育应用中实现课堂讲座的文字记录。用于会议记录和摘要生成的自动转录工具。产品特色准确的单词级时间戳预测：为每个单词提供详细的...

语音识别,开发与工具,自动语音识别,深度学习,NVIDIA,机器学习,语音转文本,普通产品,开源, 08月02日 0 0
视频

Keysync

使用场景在自动配音项目中使用 KeySync 为动画角色同步唇形。在视频游戏中应用 KeySync 提升角色对话的真实感。利用 KeySync 改善影视后期制作...

视频编辑,AI模型,唇同步,视频处理,人工智能,深度学习,自动配音,编辑推荐,开源, 08月02日 0 0
学习

Primitiveanything

使用场景利用 PrimitiveAnything 生成游戏中的角色模型。为动画制作快速创建背景场景。在建筑设计中生成复杂的 3D 结构原型。产品特色3D 模型自...

3D建模,AI设计工具,3D 建模,深度学习,设计工具,自动化生成,普通产品,开源, 08月02日 0 0
图像

Fastvlm

使用场景在移动应用中快速识别和描述图像内容。用于实时的图像和文本交互功能，如智能客服。在教育软件中实现图像理解与语言描述的结合。产品特色FastViTHD 混合...

AI模型,开发与工具,视觉模型,图像处理,自然语言处理,深度学习,高效编码,普通产品,开源, 08月02日 0 0

点击加载更多