当前位置: 网站首页 >AI教程资讯 >正文

NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具

来源:爱论文 时间:2025-03-31 10:16:24

NVIDIA-Ingest是什么

NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式,提供多种提取方法,便于在吞吐量和准确性之间进行权衡。NVIDIA-Ingest支持预处理和后处理操作,如文本分割、转换、过滤、嵌入生成和图像存储。NVIDIA-Ingest基于并行化文档处理,提高提取效率,支持将提取内容嵌入到Milvus等向量数据库中,适用于大规模文档处理和生成式应用。

NVIDIA-Ingest

NVIDIA-Ingest的主要功能

多格式文档支持:支持解析 PDF、Word (Docx)、PowerPoint (Pptx) 和图像等多种复杂的企业文档格式。多方法提取:支持多种提取方法,便于在吞吐量和准确性之间进行权衡。例如,PDF 文档支持 pdfium、Unstructured.io 和 Adobe Content Extraction Services 进行提取。内容分类与提取:将文档内容分类为文本、表格、图表和图像,分别提取这些内容。用光学字符识别(OCR)技术将提取的内容进一步上下文化,并转换为定义良好的 JSON 模式。并行处理:支持将文档拆分为页面,并行处理每个页面的内容提取,提高处理效率。预处理和后处理:支持多种预处理和后处理操作,包括文本分割和分块、内容转换、过滤、嵌入生成和图像存储。

NVIDIA-Ingest的技术原理

微服务架构:基于微服务架构,每个微服务负责特定的处理任务,如文本提取、图像提取、表格提取等,提高系统的可扩展性和灵活性。GPU 加速:基于NVIDIA 的 GPU 技术,特别是 H100 和 A100 GPU,加速文档解析和内容提取过程。GPU 的并行计算能力显著提高了处理效率,尤其是在处理大量文档时。光学字符识别(OCR):用 OCR 技术将文档中的图像和表格内容转换为可读的文本。NVIDIA-Ingest集成多种 OCR 引擎,如 PaddleOCR,提高文本识别的准确性和效率。

NVIDIA-Ingest的项目地址

GitHub仓库:https://github.com/NVIDIA/nv-ingest

NVIDIA-Ingest的应用场景

企业内容管理:将纸质文档、PDF、Word和PowerPoint等转换为可搜索、可编辑的数字格式,支持知识共享和协作。智能客服系统:解析用户上传的文档,提取关键信息,生成自动回答,提高客服效率和用户满意度。法律和合规领域:解析合同、法律文件,提取关键条款和条件,支持合规检查、风险评估和案件管理。金融行业:解析财务报告、合同和市场研究文档,提取关键数据,支持风险评估、合规监控和客户尽职调查。医疗保健:将病历文档转换为结构化数据,支持电子病历管理、临床研究和医疗影像分析。
上一篇:Eko – Fellou AI 推出的开源 AI 代理开发框架
相关资讯 更多+
  • NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具
    NVIDIA-Ingest – 英伟达开源的智能文档提取及结构化工具

    NVIDIA-Ingest是英伟达开源的用于解析复杂、混乱的非结构化PDF和其他企业文档的微服务集合。NVIDIA-Ingest能将文档转换为元数据和文本,便于嵌入到检索系统中。NVIDIA-Ingest支持PDF、Word、PowerPoint和图像等多种文档格式,提供多种提取方法,便于在吞吐量和准确性之间进行权衡。

    AI教程资讯 2023-04-14

  • Eko – Fellou AI 推出的开源 AI 代理开发框架
    Eko – Fellou AI 推出的开源 AI 代理开发框架

    Eko是Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动的方式,帮助开发者轻松创建从简单指令到复杂流程的可靠智能代理。Eko支持所有平台,包括计算机桌面环境和浏览器环境,提供统一且便捷的操作界面。

    AI教程资讯 2023-04-14

  • Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入
    Emotion-LLaMA – 多模态情绪识别与推理模型,融合音频、视觉和文本输入

    Emotion-LLaMA是多模态情绪识别与推理模型,融合了音频、视觉和文本输入,通过特定情绪编码器整合信息。模型基于修改版LLaMA,经指令调整以提升情感识别能力。研究者构建了MERR数据集助力训练与评估,使模型能从多场景学习并应用于现实。

    AI教程资讯 2023-04-14

  • GR00T-Teleop – 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术
    GR00T-Teleop – 英伟达发布通过 Apple Vision Pro 捕捉人类动作的技术

    GR00T-Teleop是NVIDIA Isaac GR00T的一部分,用在捕获远程操作数据的关键技术。基于NVIDIA CloudXR连接Apple Vision Pro头显,用专门设计的人形远程操作自定义CloudXR运行时,将手部跟踪数据流式传输到模拟平台,如Isaac Lab,将机器人环境的沉浸式视图流式传输回设备。

    AI教程资讯 2023-04-14

最新录入 更多+
确定