Gmft

使用场景数据分析师使用gmft从研究报告中提取数据进行进一步分析研究人员利用gmft从学术论文中提取实验数据企业用户通过gmft自动化从合同文档中提取表格数据的...

  • Gmft

    类别:AI工具网址目录,AI PDF,PDF处理,表格提取,数据转换,机器学习,普通产品,开源,
    官网:https://github.com/conjuncts/gmft 更新时间:2025-08-01 18:49:43
  • 使用场景

    数据分析师使用gmft从研究报告中提取数据进行进一步分析

    研究人员利用gmft从学术论文中提取实验数据

    企业用户通过gmft自动化从合同文档中提取表格数据的过程

    产品特色

    支持将PDF表格转换为Pandas DataFrame等多种格式

    能够输出表格的文本和位置列表

    支持输出表格的裁剪图像

    支持表格标题的提取

    无需OCR即可快速提取表格,适用于图像和扫描PDF

    通过PyPDFium2实现高吞吐量的PDF处理

    可配置性强,支持自定义模型和提取方法

    使用教程

    安装gmft:在命令行中输入`pip install gmft`进行安装

    导入必要的模块:在Python脚本中导入`CroppedTable, TableDetector, AutoTableFormatter`等

    创建PyPDFium2Document对象:使用待提取表格的PDF文件路径创建文档对象

    使用TableDetector进行表格检测:遍历文档的每一页,使用detector提取表格

    使用AutoTableFormatter格式化表格:将检测到的表格进行格式化处理

    将提取的表格数据转换为所需格式:例如转换为Pandas DataFrame或其他支持的格式

    关闭文档对象:完成提取后,调用文档对象的close方法释放资源