Extractous

使用场景企业使用Extractous从客户提交的PDF和Word文档中提取关键信息,以自动化数据录入和分析流程。数据科学家使用Extractous处理大量的非结...

  • Extractous

    类别:nlp,rust,pdf,machine-learning,natural-language-processing,ocr,etl,tika,extraction,docx,data-pipelines,pdf-parser,unstructured,unstructured-data,rag,etl-pipelines,llm,普通产品,开源,
    官网:https://github.com/yobix-ai/extractous 更新时间:2025-08-02 09:50:57
  • 使用场景

    企业使用Extractous从客户提交的PDF和Word文档中提取关键信息,以自动化数据录入和分析流程。

    数据科学家使用Extractous处理大量的非结构化文本数据,以进行机器学习模型训练。

    开发者将Extractous集成到他们的应用程序中,提供文档内容提取和OCR功能,增强用户体验。

    产品特色

    高性能非结构化数据提取,优化速度和低内存使用

    清晰简单的API,用于提取文本和元数据内容

    自动识别文档类型并相应提取内容

    支持多种文件格式,包括PDF、Word、Excel、HTML等

    通过tesseract-ocr技术提取图像和扫描文档中的文本

    核心引擎用Rust编写,提供Python绑定,未来将支持JavaScript/TypeScript

    详细的文档和示例,帮助用户快速高效地开始使用

    免费商用,遵循Apache 2.0许可

    使用教程

    1. 安装Extractous库,可以通过pip安装Python绑定:pip install extractous

    2. 导入Extractor类:from extractous import Extractor

    3. 创建Extractor实例,并设置需要的配置,例如OCR语言:extractor = Extractor().set_ocr_config(TesseractOcrConfig().set_language('eng'))

    4. 使用Extractor提取文件内容:result, metadata = extractor.extract_file_to_string('example.pdf')

    5. 打印或处理提取结果:print(result)

    6. 查看提取的元数据:print(metadata)

    7. 对于需要OCR的文档,确保已安装Tesseract-OCR,并配置正确的语言包。