当前位置：AIGC资讯 > 人工智能 > 正文

鹅厂也下场，文档解析的痛点是什么？

最近，文档解析赛道颇为火热，产品更新迭代频繁，与各类大模型上下游一样发展势头很劲。6月下旬，鹅厂也在多个产品上线了文档解析功能。

文档智能交互是企业、学术、个人工作中必不可少的一环，作为大模型应用的典型场景之一，它对准确、高效的文档解析工具有着长期需求。解析工具对RAG、知识库开发有着至关重要的影响，也因此受到开发者们的关心。

今天我们来聊聊文档解析的技术路线以及痛点。

对于简单的文档解析，langchain 和 llama_index 中集成了各种基于规则引擎的解析工具（如：解析pdf的pdfplumber，pyPDF2等）或者简单的开源的ocr工具（如：paddleocr），能够对多种文件类型进行解析。

鹅厂也下场，文档解析的痛点是什么？

对于复杂的文档解析,常基于深度学习的方法进行解析。

文档内容解析路径

智能文档（文本内容）技术路线

然而，对于通用文档解析而言还存在着一些挑战：

1.版式分析

版式分析

版面分析指的是对文档进行区域划分，通过bounding box定位其中的关键区域，如：文字、标题、表格、图片等。

版式分析的优势：

通过大量标注的数据，准确的划分出文档关键区域。如：

文本区域：页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等

表格

公式

图片

能对复杂的版式进行区块识别

复杂版式

版式分析的缺点，目前基本都是通过目标检测的形式进行版式分析，因此其挑战也是伴随着特定场景的标注数据，尤其是通用场景的版式分析，难度巨大。

2. 表格识别与解析

表格识别与解析的难点一般如下：

表格的多样性和复杂性：表格的形式多种多样，包括有线表、无线表和少线表，这使得检测和分割单元格变得复杂。

表格单元格的合并与拆分：某些表格中的单元格可能跨行或跨列，甚至跨页，需要准确识别这些合并的单元格并将其恢复成标准单元格。

表格内容的识别和解析：表格中可能包含图像、公式、符号等非文本内容，需要将它们转换成文本或保留格式。

表格结构的表示和输出：不同的应用场景可能需要不同的表格结构表示方式，如 HTML、JSON、CSV 等，需要将识别结果转换成适合目标应用的格式，并保留数据和样式信息。

3.公式识别与解析

公式识别类型

数学公式识别与解析是一个技术挑战性很高的领域，主要难点包括：

公式结构的复杂性：数学公式往往包含复杂的嵌套结构，这些结构的识别需要算法能够准确理解公式的层次关系，例如多层的分数、根号等。

形近字的识别难度：在手写识别中，相似形状的字符如大写X和小写x，大写Z和数字2，希腊字母γ和字母r等容易混淆，增加了识别的难度。

非常规符号的识别：比赛中添加的非常规符号组合可能会与公式混淆，增加了识别的复杂度。

4.阅读顺序

由于文档布局的复杂性，包括多栏、嵌套表格、不规则的文本框等，这增加了阅读顺序恢复的难度。

多列布局阅读顺序恢复

小结：以上文档解析的每个环节无论是数据标注、模型训练、实验，都需要投入巨大的成本和精细化的优化，在工业落地场景，在保证解析效果的同时，还需要关注文档的解析速度。尤其是OCR过程，文字密集型文档的解析速度影响特别大。

下期我们聊聊文档解析的测评工具，帮助大家选择更适合自己场景的解析产品。欢迎大家多多探讨！

总结

### 文章总结
文档解析技术在当前大模型应用背景下逐渐升温，成为企业、学术及个人工作中不可或缺的一环。随着鹅厂等大厂在产品中引入文档解析功能，这一领域的更新迭代更加频繁。本文深入探讨了文档解析的技术路线及其面临的痛点，主要包括以下几个方面：
1. **技术路线概述**：
- 简单文档解析：利用langchain、llama_index等集成规则引擎或开源OCR工具，如pdfplumber、paddleocr，可处理多种文件类型。
- 复杂文档解析：基于深度学习的方法，需要更高的准确性和效率。
2. **主要痛点及技术挑战**：
- **版式分析**：
- **优势**：能通过标注数据准确划分出文档的关键区域，如文字、表格、公式等。
- **挑战**：当前多通过目标检测来实现，依赖于大量标注数据，尤其是通用场景的标注难度极大。
- **表格识别与解析**：
- **难点**：包括表格的多样性和复杂性、单元格合并与拆分、内容识别和解析、结构表示与输出等。
- **公式识别与解析**：
- **挑战**：较高的技术复杂度，涉及复杂的嵌套结构、形近字识别难度及非常规符号处理。
- **阅读顺序恢复**：
- **难度增加因素**：多栏、嵌套表格、不规则文本框等复杂布局增加了阅读顺序恢复的难度。
3. **成本与优化需求**：
- 文档解析的每个环节都需要数据标注、模型训练等大量投入及精细化优化。
- 在工业落地中，需兼顾解析效果和解析速度，特别是在OCR过程中，文字密集型文档的解析速度尤为关键。
4. **展望**：
- 接下来的内容将关注文档解析的测评工具，帮助用户选择更合适的解析产品。
总结而言，文档解析技术虽具有良好发展势头，但依然面临版式分析、表格和公式识别、阅读顺序恢复等多重挑战，需要持续的技术创新和成本投入才能不断优化和提升。

文档解析 ocr pdf 解析工具大模型目标检测多样性数据标注模型训练解析技术大模型应用 llama paddle 深度学习数学公式 langchain 知识库 json 手写识别 rag

更新时间 2024-08-29