Mineru

使用场景科研人员使用MinerU将学术论文PDF转换为Markdown,方便引用和进一步分析。数据分析师利用MinerU提取财务报告中的表格数据,进行数据整理和...

  • Mineru

    类别:PDF转换,Markdown,JSON,OCR,文档处理,自动化,普通产品,开源,
    官网:https://github.com/opendatalab/MinerU 更新时间:2025-08-02 09:48:20
  • 使用场景

    科研人员使用MinerU将学术论文PDF转换为Markdown,方便引用和进一步分析。

    数据分析师利用MinerU提取财务报告中的表格数据,进行数据整理和分析。

    文档编辑使用MinerU将书籍扫描件转换为结构化的JSON数据,便于电子书制作。

    产品特色

    去除PDF中的页眉、页脚、脚注、页码等,确保语义连贯性。

    输出文本顺序适合人类阅读,适用于单栏、多栏和复杂布局。

    保持原始文档结构,包括标题、段落、列表等。

    提取图像、图像描述、表格、表格标题和脚注。

    自动识别并转换文档中的公式为LaTeX格式。

    自动识别并转换文档中的表格为HTML格式。

    自动检测扫描PDF和乱码PDF并启用OCR功能。

    OCR支持84种语言的检测和识别。

    支持多种输出格式,如多模态和NLP Markdown、按阅读顺序排序的JSON等。

    支持CPU和GPU环境。

    兼容Windows、Linux和Mac平台。

    使用教程

    1. 安装MinerU:根据官方文档指导,创建Python虚拟环境并安装MinerU。

    2. 下载模型权重文件:根据文档中的说明下载必要的模型文件。

    3. 修改配置文件:根据需要调整配置文件中的参数,如启用或禁用表格识别功能。

    4. 运行MinerU:使用命令行工具或API处理本地PDF文件。

    5. 查看输出结果:MinerU会将处理后的文件保存在指定的输出目录中,包括Markdown文件、图像文件夹等。

    6. 进一步处理:根据需要对输出的Markdown或JSON文件进行进一步的编辑或分析。