使用场景
开发者在编写技术文档时,将 PDF 格式的文档转换为 Markdown,方便在 GitHub 上展示。
技术博主将 HTML 文章转换为 Markdown,用于在静态博客平台上发布。
团队内部将项目文档从 PDF 转换为 Markdown,便于在代码仓库中统一管理。
产品特色
支持将 PDF 和 HTML 文档转换为 Markdown 格式
支持本地文件和 URL 的文档转换
保留文档的语义结构,确保转换后的 Markdown 内容可读性高
提供灵活的 CLI 接口,方便用户快速上手
支持自定义配置,如选择不同的 LLM 模型
提供 Go 语言库,方便开发者集成到项目中
支持通过环境变量配置 OpenAI API,实现 PDF 文本提取
使用教程
1. 安装 go-markitdown:运行命令 `CGO_ENABLED=1 go install github.com/recally-io/go-markitdown/cmd/markitdown@latest`。
2. 设置环境变量:配置 OpenAI API 的 URL 和 API Key,例如 `export OPENAI_API_KEY=your-api-key-here`。
3. 转换本地文件:运行命令 `markitdown document.pdf -o output.md`,将 PDF 文件转换为 Markdown。
4. 转换 URL:运行命令 `markitdown https://example.com/document.html -o output.md`,将网页转换为 Markdown。
5. 自定义模型:通过 `-m` 参数指定不同的 LLM 模型,例如 `markitdown document.pdf -m gpt-4 -o output.md`。