Kreuzberg

使用场景从扫描的PDF文档中提取文本,用于文档数字化处理。将图像中的文字内容提取出来,用于内容识别和分析。从Excel电子表格中提取数据,用于数据处理和分析。产...

  • Kreuzberg

    类别:开发与工具,其他分类,文本提取,PDF处理,OCR,Python库,异步编程,本地处理,办公自动化,普通产品,开源,
    官网:https://github.com/Goldziher/kreuzberg 更新时间:2025-08-02 10:26:41
  • 使用场景

    从扫描的PDF文档中提取文本,用于文档数字化处理。

    将图像中的文字内容提取出来,用于内容识别和分析。

    从Excel电子表格中提取数据,用于数据处理和分析。

    产品特色

    支持从多种文件格式中提取文本,包括PDF、图像、办公文档等。

    自动OCR处理扫描文档,智能检测文本文件的编码。

    采用现代Python设计,支持异步接口、类型提示和详细的错误处理。

    无需外部API调用或云依赖,所有处理均在本地完成。

    支持多种文档和图像格式,满足多样化的需求。

    提供详细的错误信息和上下文,便于调试和问题解决。

    支持Python的async/await语法,提高代码的可读性和效率。

    提供丰富的异常处理机制,确保程序的稳定运行。

    使用教程

    1. 安装Python库:使用pip命令安装kreuzberg库。

    2. 安装系统依赖:安装Pandoc和Tesseract OCR等系统级依赖。

    3. 导入库并使用extract_file或extract_bytes函数提取文本。

    4. 根据需要处理的文件类型,指定文件路径或字节内容。

    5. 调用函数并获取提取结果,处理返回的文本内容。