Tabled_服务_未来号

Tabled

类别：AI数据挖掘,AI工具和服务,表格检测,PDF处理,数据提取,自动化,机器学习,普通产品,开源,

官网:https://github.com/VikParuchuri/tabled 更新时间：2025-08-02 09:33:02
使用场景
研究人员使用Tabled从学术论文的PDF中提取数据，以便进行统计分析。
数据科学家利用Tabled将市场研究报告中的表格数据转换为CSV格式，用于经济预测模型。
开发者将Tabled集成到他们的软件产品中，以提供自动化的PDF表格数据处理功能。
产品特色
检测PDF中的表格并识别行列
将表格数据格式化为Markdown、CSV或HTML
支持命令行工具和交互式APP两种使用方式
自动下载模型权重，无需额外配置
提供额外的行和列信息的JSON文件保存选项
能够保存显示检测到的行、列和单元格的调试图像
支持从Python代码中直接调用，便于集成到更大的工作流程中
使用教程
1. 安装Python 3.10+和PyTorch。
2. 使用pip安装Tabled：'pip install tabled-pdf'。
3. 运行Tabled，指定数据路径：'tabled DATA_PATH'。
4. 使用--format选项指定输出格式（Markdown、HTML或CSV）。
5. 如果需要，使用--save_json选项保存额外的行和列信息。
6. 使用--save_debug_images选项保存调试图像。
7. 如果图像已经是裁剪过的表格，使用--skip_detection选项。
8. 查看生成的'results.json'文件，它包含了提取的表格数据。

Tabled