使用场景
研究人员使用NVLM-D-72B进行图像描述生成实验。
数据科学家利用该模型进行视觉问答系统开发。
机器学习工程师将模型集成到多模态对话系统中。
产品特色
支持视觉-语言任务,如图像描述生成和视觉问答。
在多模态训练后,文本性能得到提升。
支持多GPU推理,提高计算效率。
提供Huggingface和Megatron两种代码库的基准测试结果,方便比较。
模型采用解码器仅架构,专注于文本生成任务。
提供详细的环境准备、模型加载和推理使用指南。
支持将Megatron模型转换为Huggingface格式。
使用教程
准备环境:使用提供的Dockerfile构建环境。
模型加载:使用Huggingface的AutoModel.from_pretrained方法加载模型。
多GPU推理:根据提供的示例代码将模型分配到多个GPU上。
图像预处理:使用build_transform和dynamic_preprocess函数对输入图像进行处理。
文本对话:使用模型的chat方法进行纯文本对话。
图像对话:结合图像和文本输入,使用模型的chat方法进行图像相关的对话。
推理:根据需要调整生成配置,如max_new_tokens和do_sample,进行文本生成。