Pdf Extract Api

使用场景将MRI报告转换为Markdown和JSON将发票转换为JSON并去除PII使用不同的OCR策略进行PDF到Markdown的转换产品特色高精度PDF到...

  • Pdf Extract Api

    类别:开发与工具,API服务,api,pdf,json,ocr,extract,anonymization,pii,ocr-python,llm,普通产品,开源,
    官网:https://github.com/CatchTheTornado/pdf-extract-api 更新时间:2025-08-02 09:42:28
  • 使用场景

    将MRI报告转换为Markdown和JSON

    将发票转换为JSON并去除PII

    使用不同的OCR策略进行PDF到Markdown的转换

    产品特色

    高精度PDF到Markdown和JSON的转换

    使用PyTorch基于Marker的OCR和Ollama模型进行本地处理

    支持LLM改进OCR文本结果

    去除PDF中的个人身份信息(PII)

    分布式队列处理使用Celery

    使用Redis缓存OCR结果

    命令行工具用于发送任务和处理结果

    使用教程

    1. 克隆仓库到本地

    2. 设置环境变量并创建.env文件

    3. 使用Docker Compose构建并运行Docker容器

    4. 使用CLI工具上传文件进行OCR转换

    5. 获取OCR结果

    6. 清除OCR缓存