NVLM D 72B

使用场景研究人员使用NVLM-D-72B进行图像描述生成实验。数据科学家利用该模型进行视觉问答系统开发。机器学习工程师将模型集成到多模态对话系统中。产品特色支持...

  • NVLM D 72B

    类别:AI模型,AI图像生成,AI,多模态,大型语言模型,普通产品,开源,
    官网:https://huggingface.co/nvidia/NVLM-D-72B 更新时间:2025-08-02 09:25:15
  • 使用场景

    研究人员使用NVLM-D-72B进行图像描述生成实验。

    数据科学家利用该模型进行视觉问答系统开发。

    机器学习工程师将模型集成到多模态对话系统中。

    产品特色

    支持视觉-语言任务,如图像描述生成和视觉问答。

    在多模态训练后,文本性能得到提升。

    支持多GPU推理,提高计算效率。

    提供Huggingface和Megatron两种代码库的基准测试结果,方便比较。

    模型采用解码器仅架构,专注于文本生成任务。

    提供详细的环境准备、模型加载和推理使用指南。

    支持将Megatron模型转换为Huggingface格式。

    使用教程

    准备环境:使用提供的Dockerfile构建环境。

    模型加载:使用Huggingface的AutoModel.from_pretrained方法加载模型。

    多GPU推理:根据提供的示例代码将模型分配到多个GPU上。

    图像预处理:使用build_transform和dynamic_preprocess函数对输入图像进行处理。

    文本对话:使用模型的chat方法进行纯文本对话。

    图像对话:结合图像和文本输入,使用模型的chat方法进行图像相关的对话。

    推理:根据需要调整生成配置,如max_new_tokens和do_sample,进行文本生成。