使用场景
法律行业:从法律文件中提取关键条款和证据。
金融行业:从财务报告中提取财务数据和趋势分析。
医疗行业:从病历报告中提取患者信息和诊断结果。
产品特色
使用Answer.AI的Byaldi技术进行信息提取
集成OpenAI的gpt-4o模型进行自然语言处理
应用Langchain的结构化输出技术
支持从PDF文件中提取数据
提供基于Python的脚本以方便开发者使用
支持环境变量配置,方便API密钥管理
使用教程
1. 确保环境中已设置OPENAI_API_KEY和HF_TOKEN。
2. 克隆docai仓库到本地。
3. 根据README.md中的指引安装必要的依赖。
4. 构建索引:运行脚本,从'pdfs/'文件夹中构建索引。
5. 提取信息:运行extract.py脚本,查看查询和pydantic模型。
6. 查看输出:分析提取的结构化信息,根据需要进行进一步处理。