Zerox OCR

使用场景将学术论文PDF转换为Markdown,便于在不同平台分享和编辑。将商务合同PDF转换为Markdown,用于在线协作和文档管理。将技术手册PDF转换为...

  • Zerox OCR

    类别:AI PDF,AI文档工具,OCR,PDF转换,Markdown,GPT模型,普通产品,开源,
    官网:https://github.com/getomni-ai/zerox 更新时间:2025-08-01 18:40:28
  • 使用场景

    将学术论文PDF转换为Markdown,便于在不同平台分享和编辑。

    将商务合同PDF转换为Markdown,用于在线协作和文档管理。

    将技术手册PDF转换为Markdown,方便快速检索和更新内容。

    产品特色

    将PDF文件转换为图像序列。

    利用GPT模型将每张图像转换为Markdown格式。

    聚合响应并返回Markdown文档。

    支持从文件URL或本地路径读取PDF文件。

    提供了多种选项以满足不同需求,如并发处理、格式保持、临时文件清理等。

    支持同步运行请求以保持文档格式的一致性。

    提供了示例输出,展示转换后的Markdown文档结构。

    使用教程

    1. 安装必要的依赖,如graphicsmagick和ghostscript。

    2. 导入zerox模块到你的项目中。

    3. 使用提供的API,指定PDF文件路径和OpenAI API密钥。

    4. 根据需要设置并发数量、格式保持选项等。

    5. 调用zerox函数,传入PDF文件路径和配置选项。

    6. 接收转换后的Markdown文档,并根据需要进行进一步处理。

    7. 检查输出的Markdown文档,确保格式和内容符合预期。