使用场景
将学术论文PDF转换为结构化文本,便于内容分析。
从社交媒体视频提取关键帧和字幕,用于内容摘要。
对网页进行爬取,提取动态内容并生成结构化报告。
产品特色
支持约20种文件类型,包括文档、图片、视频和音频。
提供表格提取、图像提取/标注、音频/视频转录和网页爬取功能。
完全本地化,无需外部API调用。
适用于T4 GPU,易于使用Docker和Skypilot进行部署。
支持通过Gradio提供的交互式用户界面。
即将支持Langchain、llamaindex和haystack集成。
使用教程
1. 安装OmniParse,可以通过pip或Docker进行安装。
2. 根据需要选择加载文档、多媒体或网页解析模型。
3. 使用提供的API端点,如文档解析、媒体解析或网站解析。
4. 通过POST方法发送请求,包含所需解析的文件或URL。
5. 接收结构化数据,根据应用场景进行进一步处理。
6. 利用Gradio提供的交互式界面进行更直观的操作体验。
