在文档处理中,特别是在视觉丰富的文档(VRDs)中,高效信息提取(IE)的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的手动工作量。然而,从 VRDs 实现 IE 的通用解决方案面临着重大挑战,因为它需要理解文档的文本和视觉特性,这些特性无法轻松地从其他来源中获取。
针对从 VRDs 提取信息的任务,已经提出了许多方法,范围从分割算法到编码视觉和文本上下文的深度学习架构。然而,许多这些方法依赖于监督学习,需要许多人工标记的样本进行训练。
标记高度准确的 VRDs 是一项耗时且昂贵的工作,这在企业场景中构成了瓶颈,必须为成千上万种文档类型训练定制提取器。研究人员已经转向预训练策略来解决这一挑战,利用无监督多模态目标在未标记实例上训练抽取器模型,然后在人工标记的样本上进行微调。
尽管预训练策略具有许多潜在优势,但它们经常需要大量的时间和计算资源,使其在受限制的训练时间内变得不切实际。作为对这一挑战的回应,谷歌 AI 的研究团队提出了一种半监督的持续训练方法,以在有限的人工标记样本和有限的训练时间内训练出稳健的抽取器。他们提出了一种噪声感知训练方法(NAT)。他们的方法分为三个阶段,利用标记和未标记数据来循序渐进地提高抽取器的性能,同时遵守对训练施加的时间约束。
他们研究的核心问题是推动文档处理领域的发展,特别是在企业环境中,可扩展性和效率至关重要。挑战在于开发技术,允许在有限的标记数据和有限的训练时间内有效地从 VRDs 中提取信息。他们提出的方法旨在应对这一挑战,最终目标是使普通用户能够访问先进的文档处理功能,同时最大限度地减少为训练定制提取器所需的人工工作量和资源。
所提出的半监督持续训练方法不仅解决了在严格时间限制内训练强大文档抽取器所固有的挑战,而且带来了一系列好处。通过系统地利用标记和未标记数据,他们的方法有望显着提高企业环境中文档处理工作流的效率和可扩展性,最终提高生产力并降低运营成本。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。
论文地址:https://arxiv.org/abs/2404.00488