4M

使用场景使用4M模型从RGB图像生成深度图和表面法线。利用4M进行图像编辑,如根据部分输入重构完整的RGB图像。在多模态检索中,使用4M模型根据文本描述检索相应...

  • 4M

    类别:模型训练与部署,AI模型,多模态学习,Transformer模型,条件生成,视觉任务,国外精选
    官网:https://4m.epfl.ch/ 更新时间:2025-08-01 18:24:35
  • 使用场景

    使用4M模型从RGB图像生成深度图和表面法线。

    利用4M进行图像编辑,如根据部分输入重构完整的RGB图像。

    在多模态检索中,使用4M模型根据文本描述检索相应的图像。

    产品特色

    多模态和多任务训练方案,能够预测或生成任何模态。

    通过将模态转换为离散标记序列,可以在统一的Transformer编码器-解码器上训练。

    支持从部分输入进行预测,实现多模态链式生成。

    能够根据任意子集的其他模态生成任何模态,实现自我一致的预测。

    支持细粒度的多模态生成和编辑任务,如语义分割或深度图。

    可进行可控的多模态生成,通过不同条件的权重控制生成输出。

    支持多模态检索,通过预测DINOv2和ImageBind模型的全局嵌入来实现。

    使用教程

    访问4M的GitHub仓库以获取代码和预训练模型。

    根据文档说明安装所需的依赖项和环境。

    下载并加载预训练的4M模型。

    准备输入数据,可以是文本、图像或其他模态。

    根据需要选择生成任务或检索任务。

    运行模型并观察结果,根据需要调整参数。

    对生成的输出进行后处理,如将生成的标记转换回图像或其他模态。