Docling
多模态文档解析引擎,PDF/Word/Excel/PPT/图片/扫描件高精度提取
所属分类AIGC
网站描述
Docling 多模态文档解析工具
核心定位
高精度文档解析库,支持PDF、Word、Excel、PPT、图片、扫描件,提取文本、表格、图片、布局,为RAG提供高质量数据。
核心功能
- 多格式支持:PDF、DOCX、XLSX、PPTX、PNG、JPG、TIFF
- 高精度提取:文本、表格、图片、公式、印章
- 布局还原:保持原文排版、结构、层级
- 批量处理:支持文件夹、压缩包批量解析
- 输出格式:JSON、Markdown、Text、CSV
热度与优势
- Star:18,000+(2026.3)
- 解析精度SOTA,开源免费
- 适合RAG、知识库、文档管理、数据挖掘