使用场景
在 Cohere Playground 中使用 Aya Vision 32B 进行图像描述
通过 Hugging Face Space 与模型进行交互式对话
使用模型进行多语言的 OCR 任务
产品特色
支持 23 种语言,覆盖多种语言场景
能够处理图像输入并生成文本输出
支持 16K 上下文长度,适合复杂任务
提供交互式体验,如 Cohere Playground 和 Hugging Face Space
可通过 WhatsApp 与模型进行聊天交互
使用教程
安装必要的 transformers 库:`pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'`
加载模型和处理器:`AutoProcessor.from_pretrained(model_id)` 和 `AutoModelForImageTextToText.from_pretrained(model_id)`
准备输入数据,包括图像和文本内容
使用 `processor.apply_chat_template` 方法格式化输入数据
调用模型的 `generate` 方法生成输出文本
解码生成的 token 并获取最终结果