Aya Vision 32B_图像

Aya Vision 32B

类别：AI模型,图片生成,多语言,视觉语言,OCR,图像描述,视觉推理,开源,普通产品,开源,

官网:https://huggingface.co/CohereForAI/aya-vision-32b 更新时间：2025-08-02 10:35:36
使用场景
在 Cohere Playground 中使用 Aya Vision 32B 进行图像描述
通过 Hugging Face Space 与模型进行交互式对话
使用模型进行多语言的 OCR 任务
产品特色
支持 23 种语言，覆盖多种语言场景
能够处理图像输入并生成文本输出
支持 16K 上下文长度，适合复杂任务
提供交互式体验，如 Cohere Playground 和 Hugging Face Space
可通过 WhatsApp 与模型进行聊天交互
使用教程
安装必要的 transformers 库：`pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'`
加载模型和处理器：`AutoProcessor.from_pretrained(model_id)` 和 `AutoModelForImageTextToText.from_pretrained(model_id)`
准备输入数据，包括图像和文本内容
使用 `processor.apply_chat_template` 方法格式化输入数据
调用模型的 `generate` 方法生成输出文本
解码生成的 token 并获取最终结果

Aya Vision 32B