论文标题: OneChart: Purify the Chart Structural Extraction via One Auxiliary Token
论文作者: Jinyue Chen, Lingyu Kong, Haoran Wei, Chenglong Liu, Zheng Ge, Liang Zhao, Jianjian Sun, Chunrui Han, Xiangyu Zhang
发表团队: MEGVII Technology
项目页面: https://onechartt.github.io
———————————————————————————————————————————
工作摘要
1、本研究旨在提出一种可靠的图表结构提取代理,以应对图表解析中多样性的挑战。
2、作者提出了OneChart,一个端到端的图表信息提取工具。该模型采用了流行的视觉语言模型(VLM)架构,并引入了一个辅助令牌以增强数字输出的可靠性。此外,作者还设计了辅助解码器,并通过定制的L1损失进行优化。
3、实验结果显示,OneChart在多个公共基准测试中显著优于当前的图表解析模型,尤其是在没有数字注释的图表中,其平均精度提高了19.1%到29.4%。同时,该模型在与流行的大型视觉语言模型集成时,在下游ChartQA基准测试中的准确率提高了10%以上。
4、OneChart是一个创新的框架,用于从图表中提取和解释信息。作者证明了专门设计的损失函数对特定任务的重要性,并表示将专注于扩展OneChart的能力,以涵盖更多样化和复杂的图表类型。
与其它方法的比较示意图。<Chart>是辅助特殊标记。用红色和绿色突出显示的数字分别代表错误的预测和正确的预测。
———————————————————————————————————————————
研究背景
论文的研究背景主要关注于图表解析的挑战和重要性。图表和图形作为关键的视觉语言元素,广泛地应用于教育和工作的各个方面,它们帮助人们轻松、准确地理解、比较和分析数据。图表不仅仅是由标题、轴和图例组成,它们还包括点、线、角度、颜色和形状等详细的视觉元素。这些视觉元素的多样性和复杂性大大增加了自动解析图表的难度,使得这一领域成为一个具有挑战性但又必不可少的计算机视觉研究领域。
尽管现有的一些方法依赖于传统的技术,如检测和光学字符识别(OCR),将图像转换为表格,然后使用专门为表格问题回答(TableQA)模型进行推理,但这些方法在提取和分析图表结构方面仍存在局限性。此外,随着视觉-语言模型(VLMs)的发展,一些端到端的图表理解模型,如MatChart、ChartAst和ChartVLM开始出现。这些模型结合了视觉编码器和自回归解码器,旨在图像到表格任务上的预训练和针对问答(QA)应用的微调。
然而,根据作者的实验,即使是这些拥有数十亿参数的模型,在提取结构化信息和处理各种图表样式方面仍然面临限制,特别是在解析缺少数值注释的图表场景中。此外,作者指出,这些模型的性能问题主要是由于两个因素造成的:
1、“CLIP偏差”:大多数模型使用基于CLIP的视觉变换器(ViT)作为视觉编码器。由于CLIP-ViT主要在自然图像-标题对上进行训练,使用它作为视觉编码器可能会导致遗漏对图表解析必要的关键局部细节。此外,CLIP-ViT主要用英文标题进行训练,这也影响了其在编码其他语言嵌入的图表时的有效性。
2、交叉熵损失的使用:在自回归解码器中使用交叉熵损失在准确捕获或预测数值方面存在局限性。例如,数字“7008”和“70.8”的交叉熵损失可能相似,这使得模型在收敛过程中的准确性降低,并减少了其在图表中捕获数值的能力。
除了上述挑战,作者还指出了当前图表解析领域公共基准测试的局限性,包括风格、类型和语言多样性的缺乏,这些都阻碍了相关研究领域的发展。
因此,本文的研究背景强调了开发新方法以提高图表解析的准确性和可靠性的必要性,同时需要创建更多样化的基准测试以促进该领域的发展。作者提出的OneChart模型正是为了解决这些挑战而设计的。
———————————————————————————————————————————
研究方法
论文提出的OneChart模型是一个端到端的图表信息提取工具,其研究方法主要包括数据引擎和模型架构。
一、数据引擎(Data Engine)
数据引擎顾名思义就是作者提供的图表理解数据集的合成方法,流程如下图所示:
包括以下步骤:
1、图表数据生成:使用Matplotlib和Pyecharts两种工具来生成图表图像。Matplotlib生成的图表包含“标题”、“x轴”、“y轴”和“图表主体”四个字段。
2、增强现实世界风格:引入“图表来源”字段,以更好地模拟真实世界的图表数据风格。
3、两阶段渲染方法:首先创建图表的主部分(不包括标题和来源)。然后,通过图形拼接技术,将标题和来源添加到图表中。
4、视觉多样性增强:使用随机生成的16位颜色代码来改变文本和图形的颜色。提供数百种不同的文本字体。在视觉元素的大小、方向和数量上引入可变性。
5、预训练数据内容生成:对于图表的文本信息,如标题和来源,使用自然语言处理语料库,通过设置预定长度随机提取条目。数值内容的生成则在受控分布下进行,以确保多样性。
6、数据类别:主要生成两类图表数据:条形-线形图表和饼图图表。条形-线形图表进一步细分为五种类型:单柱状图、多柱状图、单线图、多线图和组合图(混合图)。每种类型的图表均等分为带有和不带有数值标签的可视化。饼图则分为带标签的饼图和带有图例的饼图。7、多语言和多领域内容:使用GPT-3.5和随机语料库随机生成多主题的源数据,包括中文和英文,以增加数据的多样性。利用不同的提示生成具有逻辑和实际意义的内容,覆盖金融、教育、技术等多个领域。
8、固定分辨率:对于图表图像输入,将图像调整为固定分辨率1024×1024,不进行额外的数据增强。
9、生成规模:整个生成过程产生了约10M张图表图像及其对应的真实标签,这些真实标签是与图表图像对应的结构化信息,以Python字典格式存储,这些数据将用作模型训练的标签。
二、模型架构(Architecture)
OneChart基于流行的视觉-语言模型(VLM)架构,选择Vary-tiny模型,包含SAM-base视觉编码器和tiny OPT125M自回归解码器,通过线性层同步它们的通道维度。下图为架构示意图:
可以分为下面几个模块:
1、视觉编码器(Vision Encoder):使用SAM-base模型作为视觉编码器,将输入的图表图像转换为特征表示。
2、自回归解码器(Auto-regressive Decoder):采用tiny OPT125M模型作为自回归解码器,用于将视觉特征转换为文本格式的输出。
3、连接层(Linear Layer):通过一个线性层将视觉编码器和自回归解码器的通道维度同步,以确保它们可以有效地结合在一起。
4、辅助令牌(Auxiliary Token):引入一个特殊的辅助令牌“<Chart>”,放置在令牌序列的开始处,用于增强模型对图表中数值的提取能力。
5、辅助解码器(Auxiliary Decoder):为辅助令牌设计了一个专门的解码器,该解码器由3层多层感知机(MLP)和2个ReLU激活函数组成,用于预测图表中的数值信息。
6、损失函数(Loss Function):使用L1损失函数来优化辅助解码器的数值输出,提高数值预测的准确性。———————————————————————————————————————————
研究成果
论文提出的OneChart模型在图表结构化提取领域取得了显著的研究成果,具体可以总结为以下几点:
创新模型设计:OneChart是一个专为图表信息结构化提取而设计的可靠代理。它采用了一个辅助令牌和额外的解码器来增强数值部分的输出可靠性。
性能提升:与现有的最先进图表解析模型相比,OneChart在多个公共基准测试中的Average Precision (AP)有显著提升。尽管OneChart只有0.2亿参数,但其性能明显优于其他大型模型。
自评估机制:OneChart引入了一个自我评估机制,能够为生成的内容提供置信度分数,从而评估其图表解析结果的可靠性。
多语言和多样化数据集:OneChart在创建ChartY基准测试时,涵盖了广泛的主题、图表类型以及中英文内容,这为模型的多语言适应性和风格多样性提供了支持。
下游任务的准确性提升:作为图表解析代理,OneChart在流行的大型视觉-语言模型(如LLaVA-1.6)的下游ChartQA基准测试中,带来了10%以上的准确性提升。
消融研究:通过消融研究,论文展示了辅助令牌的有效性,以及它在序列中的位置对模型性能的影响。
训练策略优化:论文还探讨了不同的训练策略,发现通过预热辅助解码器,然后对整个模型进行微调,可以获得最佳的性能。
实际应用潜力:OneChart在结构化提取任务中表现出色,这表明它在实际应用中具有巨大的潜力,尤其是在需要自动化数据分析和信息提取的场景中。
未来研究方向:论文指出了未来研究的方向,包括扩展OneChart以处理更多样和复杂的图表类型,以及探索其在现实世界场景中的应用。
推荐阅读:
《三年面试五年模拟》版本更新白皮书,迎接AIGC时代
AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码
AI多模态教程:从0到1搭建VisualGLM图文大模型案例