最近,文档解析赛道颇为火热,产品更新迭代频繁,与各类大模型上下游一样发展势头很劲。6月下旬,鹅厂也在多个产品上线了文档解析功能。
文档智能交互是企业、学术、个人工作中必不可少的一环,作为大模型应用的典型场景之一,它对准确、高效的文档解析工具有着长期需求。解析工具对RAG、知识库开发有着至关重要的影响,也因此受到开发者们的关心。
今天我们来聊聊文档解析的技术路线以及痛点。
对于简单的文档解析,langchain 和 llama_index 中集成了各种基于规则引擎的解析工具(如:解析pdf的pdfplumber,pyPDF2等)或者简单的开源的ocr工具(如:paddleocr),能够对多种文件类型进行解析。
鹅厂也下场,文档解析的痛点是什么?
对于复杂的文档解析,常基于深度学习的方法进行解析。
文档内容解析路径
智能文档(文本内容)技术路线
然而,对于通用文档解析而言还存在着一些挑战:
1.版式分析
版式分析
版面分析指的是对文档进行区域划分,通过bounding box定位其中的关键区域,如:文字、标题、表格、图片等。
版式分析的优势:
通过大量标注的数据,准确的划分出文档关键区域。如:
文本区域:页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
表格
公式
图片
能对复杂的版式进行区块识别
复杂版式
版式分析的缺点,目前基本都是通过目标检测的形式进行版式分析,因此其挑战也是伴随着特定场景的标注数据,尤其是通用场景的版式分析,难度巨大。
2. 表格识别与解析
表格识别与解析的难点一般如下:
表格的多样性和复杂性:表格的形式多种多样,包括有线表、无线表和少线表,这使得检测和分割单元格变得复杂 。
表格单元格的合并与拆分:某些表格中的单元格可能跨行或跨列,甚至跨页,需要准确识别这些合并的单元格并将其恢复成标准单元格 。
表格内容的识别和解析:表格中可能包含图像、公式、符号等非文本内容,需要将它们转换成文本或保留格式 。
表格结构的表示和输出:不同的应用场景可能需要不同的表格结构表示方式,如 HTML、JSON、CSV 等,需要将识别结果转换成适合目标应用的格式,并保留数据和样式信息。
3.公式识别与解析
公式识别类型
数学公式识别与解析是一个技术挑战性很高的领域,主要难点包括:
公式结构的复杂性:数学公式往往包含复杂的嵌套结构,这些结构的识别需要算法能够准确理解公式的层次关系,例如多层的分数、根号等 。
形近字的识别难度:在手写识别中,相似形状的字符如大写X和小写x,大写Z和数字2,希腊字母γ和字母r等容易混淆,增加了识别的难度 。
非常规符号的识别:比赛中添加的非常规符号组合可能会与公式混淆,增加了识别的复杂度。
4.阅读顺序
由于文档布局的复杂性,包括多栏、嵌套表格、不规则的文本框等,这增加了阅读顺序恢复的难度。
多列布局阅读顺序恢复
小结:以上文档解析的每个环节无论是数据标注、模型训练、实验,都需要投入巨大的成本和精细化的优化,在工业落地场景,在保证解析效果的同时,还需要关注文档的解析速度。尤其是OCR过程,文字密集型文档的解析速度影响特别大。
下期我们聊聊文档解析的测评工具,帮助大家选择更适合自己场景的解析产品。欢迎大家多多探讨!
总结
### 文章总结文档解析技术在当前大模型应用背景下逐渐升温,成为企业、学术及个人工作中不可或缺的一环。随着鹅厂等大厂在产品中引入文档解析功能,这一领域的更新迭代更加频繁。本文深入探讨了文档解析的技术路线及其面临的痛点,主要包括以下几个方面:
1. **技术路线概述**:
- 简单文档解析:利用langchain、llama_index等集成规则引擎或开源OCR工具,如pdfplumber、paddleocr,可处理多种文件类型。
- 复杂文档解析:基于深度学习的方法,需要更高的准确性和效率。
2. **主要痛点及技术挑战**:
- **版式分析**:
- **优势**:能通过标注数据准确划分出文档的关键区域,如文字、表格、公式等。
- **挑战**:当前多通过目标检测来实现,依赖于大量标注数据,尤其是通用场景的标注难度极大。
- **表格识别与解析**:
- **难点**:包括表格的多样性和复杂性、单元格合并与拆分、内容识别和解析、结构表示与输出等。
- **公式识别与解析**:
- **挑战**:较高的技术复杂度,涉及复杂的嵌套结构、形近字识别难度及非常规符号处理。
- **阅读顺序恢复**:
- **难度增加因素**:多栏、嵌套表格、不规则文本框等复杂布局增加了阅读顺序恢复的难度。
3. **成本与优化需求**:
- 文档解析的每个环节都需要数据标注、模型训练等大量投入及精细化优化。
- 在工业落地中,需兼顾解析效果和解析速度,特别是在OCR过程中,文字密集型文档的解析速度尤为关键。
4. **展望**:
- 接下来的内容将关注文档解析的测评工具,帮助用户选择更合适的解析产品。
总结而言,文档解析技术虽具有良好发展势头,但依然面临版式分析、表格和公式识别、阅读顺序恢复等多重挑战,需要持续的技术创新和成本投入才能不断优化和提升。