LLM Aided OCR

使用场景将历史信件的扫描件转换为可编辑的文本格式。对学术文章的扫描副本进行OCR处理,并纠正原始输出中的错误。将公司存档的合同文档数字化,以便于搜索和引用。产品...

  • LLM Aided OCR

    类别:AI文字人性化,AI文本转语音,ocr,LLMs,Tesseract,普通产品,开源,
    官网:https://github.com/Dicklesworthstone/llm_aided_ocr 更新时间:2025-08-01 18:49:10
  • 使用场景

    将历史信件的扫描件转换为可编辑的文本格式。

    对学术文章的扫描副本进行OCR处理,并纠正原始输出中的错误。

    将公司存档的合同文档数字化,以便于搜索和引用。

    产品特色

    PDF到图像转换

    使用Tesseract进行OCR

    使用LLMs进行高级错误校正(本地或基于API)

    智能文本分块以高效处理

    Markdown格式选项

    可选的页眉和页码抑制

    最终输出的质量评估

    支持本地LLMs和基于云的API提供商(OpenAI, Anthropic)

    异步处理以提高性能

    详细的日志记录用于过程跟踪和调试

    GPU加速本地LLM推理

    使用教程

    1. 将PDF文件放置在项目目录中。

    2. 更新main()函数中的input_pdf_file_path变量为您的PDF文件名。

    3. 运行脚本:python llm_aided_ocr.py。

    4. 脚本将生成多个输出文件,包括最终处理后的文本。

    5. 检查生成的{base_name}__raw_ocr_output.txt文件,这是Tesseract的原始OCR输出。

    6. 查看{base_name}_llm_corrected.md文件,这是经过LLM校正和格式化的最终文本。

    7. 根据需要,查看日志文件以了解处理过程和质量评估。