Vision Is All You Need_创作

Vision Is All You Need

类别：知识管理,研究工具,React,Modal,RAG,FastAPI,Qdrant,ColPali,V-RAG,Vision-RAG,普通产品,开源,

官网:https://github.com/Softlandia-Ltd/vision-is-all-you-need 更新时间：2025-08-02 10:00:02
使用场景
企业使用V-RAG架构快速检索合同文档中的关键条款
研究人员利用该系统在学术论文中查找特定研究结果
法律团队用它来检索案件档案中的相关信息
产品特色
将PDF文件页面转换为图像
使用ColPali作为VLM获取图像嵌入
将嵌入存储在QDrant作为向量数据库
用户通过V-RAG系统提交查询
查询通过VLM获取查询嵌入
使用查询嵌入在向量数据库中搜索相似嵌入
将用户查询和搜索结果的最佳匹配图像再次传递给能理解图像的模型
模型根据查询和图像生成响应
使用教程
1. 确保你有一个Hugging Face账户并使用`transformers-cli login`登录
2. 确保你有OpenAI API的密钥，并将其放置在dotenv文件中
3. 安装Python 3.11或更高版本
4. 使用`pip install modal`安装Modal
5. 运行`modal setup`进行配置
6. 使用`modal serve main.py`启动demo
7. 通过浏览器访问Modal提供的URL，并附加`/docs`来使用API
8. 点击`POST /collections`端点，上传PDF文件进行索引
9. 使用`POST /search`端点搜索相似页面，并获取OpenAI API的响应

Vision Is All You Need