NVIDIA Ingest

使用场景企业用于从大量业务文档中提取关键信息,构建知识图谱研究机构从学术文献中提取数据,辅助科研工作数据分析师将提取的文本数据用于后续的数据分析和挖掘产品特色接...

  • NVIDIA Ingest

    类别:开发与工具,数据分析,文档处理,数据提取,微服务,普通产品,开源,
    官网:https://github.com/NVIDIA/nv-ingest 更新时间:2025-08-02 10:15:09
  • 使用场景

    企业用于从大量业务文档中提取关键信息,构建知识图谱

    研究机构从学术文献中提取数据,辅助科研工作

    数据分析师将提取的文本数据用于后续的数据分析和挖掘

    产品特色

    接受包含文档负载和摄取任务的JSON作业描述

    允许检索作业结果,结果为包含提取对象元数据及处理注释的JSON字典

    支持PDF、Docx、pptx和图像等多种文档类型

    支持每种文档类型多种提取方法,如PDF支持pdfium、Unstructured.io和Adobe Content Extraction Services

    支持预处理和后处理操作,包括文本分割、转换、过滤、嵌入生成等

    使用教程

    1. 启动支持NIM微服务

    2. 在Python环境中安装NVIDIA Ingest客户端依赖

    3. 提交摄取作业

    4. 检查和使用结果

    5. 可选:直接部署库