Vision Is All You Need

使用场景企业使用V-RAG架构快速检索合同文档中的关键条款研究人员利用该系统在学术论文中查找特定研究结果法律团队用它来检索案件档案中的相关信息产品特色将PDF文...

  • Vision Is All You Need

    类别:知识管理,研究工具,React,Modal,RAG,FastAPI,Qdrant,ColPali,V-RAG,Vision-RAG,普通产品,开源,
    官网:https://github.com/Softlandia-Ltd/vision-is-all-you-need 更新时间:2025-08-02 10:00:02
  • 使用场景

    企业使用V-RAG架构快速检索合同文档中的关键条款

    研究人员利用该系统在学术论文中查找特定研究结果

    法律团队用它来检索案件档案中的相关信息

    产品特色

    将PDF文件页面转换为图像

    使用ColPali作为VLM获取图像嵌入

    将嵌入存储在QDrant作为向量数据库

    用户通过V-RAG系统提交查询

    查询通过VLM获取查询嵌入

    使用查询嵌入在向量数据库中搜索相似嵌入

    将用户查询和搜索结果的最佳匹配图像再次传递给能理解图像的模型

    模型根据查询和图像生成响应

    使用教程

    1. 确保你有一个Hugging Face账户并使用`transformers-cli login`登录

    2. 确保你有OpenAI API的密钥,并将其放置在dotenv文件中

    3. 安装Python 3.11或更高版本

    4. 使用`pip install modal`安装Modal

    5. 运行`modal setup`进行配置

    6. 使用`modal serve main.py`启动demo

    7. 通过浏览器访问Modal提供的URL,并附加`/docs`来使用API

    8. 点击`POST /collections`端点,上传PDF文件进行索引

    9. 使用`POST /search`端点搜索相似页面,并获取OpenAI API的响应