使用场景
企业用于从大量业务文档中提取关键信息,构建知识图谱
研究机构从学术文献中提取数据,辅助科研工作
数据分析师将提取的文本数据用于后续的数据分析和挖掘
产品特色
接受包含文档负载和摄取任务的JSON作业描述
允许检索作业结果,结果为包含提取对象元数据及处理注释的JSON字典
支持PDF、Docx、pptx和图像等多种文档类型
支持每种文档类型多种提取方法,如PDF支持pdfium、Unstructured.io和Adobe Content Extraction Services
支持预处理和后处理操作,包括文本分割、转换、过滤、嵌入生成等
使用教程
1. 启动支持NIM微服务
2. 在Python环境中安装NVIDIA Ingest客户端依赖
3. 提交摄取作业
4. 检查和使用结果
5. 可选:直接部署库