LLM Aided OCR_创作

LLM Aided OCR

类别：AI文字人性化,AI文本转语音,ocr,LLMs,Tesseract,普通产品,开源,

官网:https://github.com/Dicklesworthstone/llm_aided_ocr 更新时间：2025-08-01 18:49:10
使用场景
将历史信件的扫描件转换为可编辑的文本格式。
对学术文章的扫描副本进行OCR处理，并纠正原始输出中的错误。
将公司存档的合同文档数字化，以便于搜索和引用。
产品特色
PDF到图像转换
使用Tesseract进行OCR
使用LLMs进行高级错误校正（本地或基于API）
智能文本分块以高效处理
Markdown格式选项
可选的页眉和页码抑制
最终输出的质量评估
支持本地LLMs和基于云的API提供商（OpenAI, Anthropic）
异步处理以提高性能
详细的日志记录用于过程跟踪和调试
GPU加速本地LLM推理
使用教程
1. 将PDF文件放置在项目目录中。
2. 更新main()函数中的input_pdf_file_path变量为您的PDF文件名。
3. 运行脚本：python llm_aided_ocr.py。
4. 脚本将生成多个输出文件，包括最终处理后的文本。
5. 检查生成的{base_name}__raw_ocr_output.txt文件，这是Tesseract的原始OCR输出。
6. 查看{base_name}_llm_corrected.md文件，这是经过LLM校正和格式化的最终文本。
7. 根据需要，查看日志文件以了解处理过程和质量评估。

LLM Aided OCR