GLM 4V 9B

使用场景用于生成描述图片内容的文本在多语言环境下进行自然语言处理任务作为聊天机器人的底层模型,提供智能对话服务产品特色支持8K上下文长度的模型仓库具备视觉理解能...

  • GLM 4V 9B

    类别:AI模型,AI聊天机器人,多模态,预训练模型,中英双语,视觉理解,对话生成,国外精选,开源,
    官网:https://huggingface.co/THUDM/glm-4v-9b 更新时间:2025-08-01 18:16:19
  • 使用场景

    用于生成描述图片内容的文本

    在多语言环境下进行自然语言处理任务

    作为聊天机器人的底层模型,提供智能对话服务

    产品特色

    支持8K上下文长度的模型仓库

    具备视觉理解能力,能够处理图像并生成描述

    中英双语多轮对话能力

    在综合能力、感知推理、文字识别、图表理解等方面表现出色

    支持使用Python进行模型调用和生成文本

    提供模型权重的使用协议,确保合规使用

    使用教程

    导入必要的Python库,如torch、PIL和transformers

    使用AutoTokenizer从THUDM/glm-4v-9b获取分词器

    准备输入的文本和图像,并将图像转换为RGB格式

    通过tokenizer应用聊天模板,生成输入

    将输入转换为模型需要的格式,并设置生成参数

    调用AutoModelForCausalLM生成文本

    解码生成的文本输出