NVLM D 72B_图像

NVLM D 72B

类别：AI模型,AI图像生成,AI,多模态,大型语言模型,普通产品,开源,

官网:https://huggingface.co/nvidia/NVLM-D-72B 更新时间：2025-08-02 09:25:15
使用场景
研究人员使用NVLM-D-72B进行图像描述生成实验。
数据科学家利用该模型进行视觉问答系统开发。
机器学习工程师将模型集成到多模态对话系统中。
产品特色
支持视觉-语言任务，如图像描述生成和视觉问答。
在多模态训练后，文本性能得到提升。
支持多GPU推理，提高计算效率。
提供Huggingface和Megatron两种代码库的基准测试结果，方便比较。
模型采用解码器仅架构，专注于文本生成任务。
提供详细的环境准备、模型加载和推理使用指南。
支持将Megatron模型转换为Huggingface格式。
使用教程
准备环境：使用提供的Dockerfile构建环境。
模型加载：使用Huggingface的AutoModel.from_pretrained方法加载模型。
多GPU推理：根据提供的示例代码将模型分配到多个GPU上。
图像预处理：使用build_transform和dynamic_preprocess函数对输入图像进行处理。
文本对话：使用模型的chat方法进行纯文本对话。
图像对话：结合图像和文本输入，使用模型的chat方法进行图像相关的对话。
推理：根据需要调整生成配置，如max_new_tokens和do_sample，进行文本生成。

NVLM D 72B