Docai

使用场景法律行业:从法律文件中提取关键条款和证据。金融行业:从财务报告中提取财务数据和趋势分析。医疗行业:从病历报告中提取患者信息和诊断结果。产品特色使用Ans...

  • Docai

    类别:AI数据挖掘,AI文档工具,文档处理,信息提取,自然语言处理,人工智能,普通产品,开源,
    官网:https://github.com/madisonmay/docai 更新时间:2025-08-01 19:03:24
  • 使用场景

    法律行业:从法律文件中提取关键条款和证据。

    金融行业:从财务报告中提取财务数据和趋势分析。

    医疗行业:从病历报告中提取患者信息和诊断结果。

    产品特色

    使用Answer.AI的Byaldi技术进行信息提取

    集成OpenAI的gpt-4o模型进行自然语言处理

    应用Langchain的结构化输出技术

    支持从PDF文件中提取数据

    提供基于Python的脚本以方便开发者使用

    支持环境变量配置,方便API密钥管理

    使用教程

    1. 确保环境中已设置OPENAI_API_KEY和HF_TOKEN。

    2. 克隆docai仓库到本地。

    3. 根据README.md中的指引安装必要的依赖。

    4. 构建索引:运行脚本,从'pdfs/'文件夹中构建索引。

    5. 提取信息:运行extract.py脚本,查看查询和pydantic模型。

    6. 查看输出:分析提取的结构化信息,根据需要进行进一步处理。