使用场景
将MRI报告转换为Markdown和JSON
将发票转换为JSON并去除PII
使用不同的OCR策略进行PDF到Markdown的转换
产品特色
高精度PDF到Markdown和JSON的转换
使用PyTorch基于Marker的OCR和Ollama模型进行本地处理
支持LLM改进OCR文本结果
去除PDF中的个人身份信息(PII)
分布式队列处理使用Celery
使用Redis缓存OCR结果
命令行工具用于发送任务和处理结果
使用教程
1. 克隆仓库到本地
2. 设置环境变量并创建.env文件
3. 使用Docker Compose构建并运行Docker容器
4. 使用CLI工具上传文件进行OCR转换
5. 获取OCR结果
6. 清除OCR缓存