使用场景
用于生成描述图片内容的文本
在多语言环境下进行自然语言处理任务
作为聊天机器人的底层模型,提供智能对话服务
产品特色
支持8K上下文长度的模型仓库
具备视觉理解能力,能够处理图像并生成描述
中英双语多轮对话能力
在综合能力、感知推理、文字识别、图表理解等方面表现出色
支持使用Python进行模型调用和生成文本
提供模型权重的使用协议,确保合规使用
使用教程
导入必要的Python库,如torch、PIL和transformers
使用AutoTokenizer从THUDM/glm-4v-9b获取分词器
准备输入的文本和图像,并将图像转换为RGB格式
通过tokenizer应用聊天模板,生成输入
将输入转换为模型需要的格式,并设置生成参数
调用AutoModelForCausalLM生成文本
解码生成的文本输出