基于两阶段深度学习的表格结构识别方法
孙寅生, 袁贞明
杭州师范大学信息科学与技术学院
鉴于在图像中识别表格结构面临着表格样式众多、图像质量各异等难题,提出一种融合表格线与文字块信息的两阶段深度学习框架,以实现少线复杂表格结构的识别.首先,将残差结构引入U-Net语义分割网络中,增强网络传递表格线信息能力,完成表格线的识别;然后,加入文字块位置信息以提高模型识别无线或少线表格结构的能力.该方法在PubTabNet数据集上的树编辑距离(TEDS)评分达到95.95.实验证明,该方法在识别少线表或无线表时表现优秀,并能高效、准确地识别存在合并单元格的复杂结构表格.
表格识别; 语义分割; 深度学习
图像中的表格识别是近年来计算机视觉领域备受关注的一个重要课题.其应用场景涉及医疗、金融等多个领域,可用于提取医疗化验报告、体检报告、财务报表等文档图像中的表格数据.文档图像的表格识别一般包含表格区域检测和表格结构识别2个子任务,由于表格类别多、布局复杂、图像质量各异,该领域仍面临着众多挑战.
表格区域检测是指在文档图像中检测出属于表格部分的区域,常被视为目标检测任务.得益于通用空间特征提取网络和对象检测网络的不断发展,表格检测任务已被有效解决.Gilani等和Siddiqui等以Faster R-CNN为基础,分别改进数据输入和卷积方式,各自在UNLV数据集和2017年文档分析与识别国际会议(ICDAR)的 POD数据集上取得了当年的**性能.此外,新兴的图神经网络(GNN)也被应用于表格检测领域中.
表格结构识别任务旨在通过分析表格行和列的布局信息还原出表格的结构.虽然表格本质上是一个二维数据结构,但是由于文档类型、数据类型、文档作者偏好等要素的多样性,以及排版规则的自由性,表格样式也趋向于多样性和复杂性.因此,研究者需要提出能识别其中关键信息,过滤无用信息,并具有强大鲁棒性和泛化能力的方法或模型.尽管深度学习方法在此任务上的发展较表格区域检测任务稍慢,但随着技术的发展,其在表格结构识别任务上的应用逐渐增多,并且取得了不错的效果.如Paliwal等提出了一种端到端、多任务、基于编解码器的图像语义分割模型TableNet.该模型的整体架构类似于U-Net:编码器阶段使用经ImageNet预训练的VGG-19模型提取特征;解码器阶段先通过上采样恢复到原图大小并最终得到表格和表格区域中列分割的mask图,再通过下采样将对应大小的特征图添加到上采样对应层的特征图中,以恢复最终图像中的位置信息,最后使用基于规则的方法将列分割结果处理成表格单元格邻接关系矩阵,得到表格真正的逻辑结构.该方法在ICDAR 2013数据集上的实验结果显示F1值达到了91.51%.但是,该方法需要在现有的数据集中增加手工注释的行信息,而当前用于表格识别任务的数据集都不提供基于行的注释.在2021年的ICDAR表格识别竞赛中,海康研究院的研究人员首先检测表格中存在的所有的单元格或文字块(1个文字块认为是1个单元格),然后利用先验知识对单元格信息进行排列优化来得到完整的表格结构.该方法结合了ResNet50和mask R-CNN来识别表格中的单元格,在数据集PubTabNet上取得了96.4的树编辑距离(TEDS)评分,获得当年竞赛的第一名.但这一方法过于依赖文字块或单元格信息,其性能取决于模型检出单元格或文字块信息的能力.
上述表格结构识别方法都仅从表格的表格线或单元格出发,借用单一的信息和复杂的网络模型完成对表格结构的识别,识别结果的优劣完全依赖于网络模型的收敛程度和数据量的大小.此外,由于以上模型仅借助表格线或者文字块单方面信息识别表格,当要识别的表格存在无线、少线的情况或表格中存在大量空白单元格时,以上方法的性能就会大幅度降低.本文方法注意到了表格线和文字块在形成表格时的相互作用,借助两方面信息,相互补充,提高了表格结构识别的准确度,为解决该问题提供了新的思路.
表格结构识别是表格区域检测子任务的后续工作,基于已检测到的表格区域,进一步提取表格线的分布和单元格之间的逻辑结构,故也被称为表格结构重建.
本研究重点关注无线或少线表格的结构识别任务,在减少表格识别模型复杂度的条件下,提出一种融合了表格线信息和文字块信息的文档图像表格识别方法(算法1).
算法1 表格识别算法
1)将表格图像分别送入语义分割网络和目标检测网络,得到表格线像素点信息和文字块信息.
2)将像素点信息拟合为规整直线,并进一步拟合出矩形单元格,初步识别表格结构.
3)利用文字块信息修正单元格信息,修正算法如算法2.
4)以所有单元格中的最小长度和宽度作为基准长度来计算每个单元格的行跨度和列跨度,完成表格结构的识别.
该算法针对表格布局复杂多样的特点,在检测到的表格区域基础上,先根据表格中的线条信息预测出表格的单元格布局来初步识别表格的结构,然后借助表格中文字块区域的位置信息进一步优化初步识别出的表格结构,其流程图如图1所示.这样不仅能识别结构简单、完整的表格,还能识别存在合并单元格的表格和无线或者少线的表格,极大限度地增加了能够识别的表格类型.
讯享网
图1 表格识别算法流程图
2.1 基于Res-U-Net的表格线检测
传统的图像直线检测算法通常基于霍夫变换实现,该方法会将过粗的表格线识别为多条直线.此外,由于文档图像可能拍摄于不受控的自然场景,导致表格线存在一定的弯曲,而霍夫变换无法识别该类型的直线.因此本研究使用深度学习方法,利用Vgg16-U-Net网络识别组成表格线的像素集合.但该方法分割得到的表格线像素点存在大量的断连情况(图2),分析其原因,由于表格中充满了大量的文字和文字间的空白,而构成表格的表格线属于相对细弱的目标,在网络较深时容易丢失信息,最终导致网络丢失其目标信息,分割出的直线信息不完整.
图2 Vgg16-U-Net分割结果
为了能让表格线信息传入更深层次网络,本研究将ResNet中残差连接的思想引入U-Net 网络,将改进后的U-Net网络(Res-U-Net)用于表格线的分割.具体改进方式为:在U-Net每一个Block中加入残差连接的部分,将每一个Block的输入特征层和经过2次卷积后输出的特征层连接.改进后的模型结构如图3所示,其中:网络的输入为512×512×3的文档图像,下采样过程中的卷积核大小为3×3,同时加入BN层来加快收敛速度,通道数依次为32、64、128、256、512;网络的输出为带有表格线像素点掩码的RGB图像.
图3 Res-U-Net模型结构
在图3的网络结构中,绿色部分为U-Net编码器,在全卷积网络(FCN)的基础上进行改良,通过多次下采样,提取不同层次的特征(边缘、形状、语义等);蓝色部分为解码器,用于融合多层次的特征.相较于FCN直接对高层语义特征进行解码,U-Net网络增加了不同层次特征的交互、融合,特征表征能力更强.此外,它的跳跃连接结构加强了整个网络的特征传导,在一定程度上缓解了神经网络层次过深时出现的梯度消失问题,加强了特征复用,从而提高网络的学习能力.
为解决网络层次过深导致的特征丢失问题,向每一个采样模块中引入残差结构,从而将网络早期的特征信息直接传输到网络更深的隐藏层中,使得构建深层次的神经网络成为可能.残差结构由2次卷积和1个残差连接路径组成,如图4所示,每个残差块有x和F(x) 2条路径,主要作用是拟合残差,可称之为残差路径;路径为恒等映射,也可以将其称为快捷连接(shortcut).依据残差路径是否改变了特征图的数量和尺寸,快捷连接的路径可以大致分为2种,一种是输入x原封不动地输出,另一种是通过1×1卷积来升高维度或者进行降采样操作,其主要目的在于保持输出与F(x)输出的特征图形状一致.具体的快捷连接结构如图5所示.

图4 残差结构示意图
图5 快捷连接结构示意图
2.2 基于YOLOv5网络的表格文字块检测
本研究在分割表格线时,曾尝试同时分割出表格中存在文字的区域,但在分割时距离较近的文字区域极易粘连(图6),不方便后续处理.故最终选用独立的目标检测网络,以目标检测的方法获得表格中文字区域的信息.文字检测部分沿用了表格结构识别任务的前驱任务(表格区域检测任务)的实验成果.在表格区域检测任务中,对比YOLOv5与Faster R-CNN网络的性能后发现YOLOv5网络检测性能明显优于后者,因此本研究基于YOLOv5进行改进,并采用改进后的YOLOv5进行文字块区域的检测.
图6 文字块分割结果
2.3 融合表格线和文字块的结构识别优化
由于使用移动设备拍摄的图像中的表格线存在一定的弯曲,使用传统的方法无法获取直线信息.受到卷积神经网络卷积核滑动窗口思想的启发,本文采用滑动遮罩法,在网络输出的图像上创建滑动遮罩,将像素点信息进一步拟合为表格线信息.以处理横线像素点信息为例,具体拟合方式为:首先将该图片转变为单通道图片,只保留红色的像素点.然后在该图像中建立一个滑动的矩形遮罩,长度与图片长度相同,宽度为图片宽度的1/15,在每一个遮罩内提取属于横线的像素点的坐标,采用最小二乘法拟合出一条直线.完成一条横线的采集后,遮罩下滑,提取下一条横线.提取竖线的方式类似,遮罩变为宽度与图片宽度相同,长度为图片长度的1/20.提取到横线和竖线后,通过opencv中自带的函数来拟合矩形,进一步获得图片中的单元格坐标,结果如图7所示.
图7 单元格拟合结果
算法2 表格结构识别优化算法
1)若识别到单元格,进入步骤2);若无法检测到单元格,进入步骤5).
2)将二维列表中的文字块与单元格匹配,若文字块的中点坐标落入单元格内部,进入步骤3);若最后有部分文字块没有匹配到相应的单元格,则进入步骤4).
3)判定该文字块属于该单元格.
4)判定该单元格未被检出,使用文字块坐标替代单元格坐标作为对单元格坐标的修正.
5)使用文字块坐标完全替代单元格坐标.
6)修正后的单元格坐标信息是乱序的,对乱序的单元格信息进行行列排序.
单元格信息的排序方法如下:将得到的单元格收集成行,若某单元格的纵坐标中点落入另一个单元格右上角和左下角的纵坐标之间,则判定2个单元格在同一行.若某单元格横坐标中点落入另一个文字块最小包围盒右上角和左下角的横坐标之间,则判定2个单元格在同一列.上述方法可用数学的方式描述为:
(1)
(2)
其中,x1、y1和x2、y2分别代表某一单元格的左上角坐标和右下角坐标,
和
分别代表要与之进行行或列匹配的单元格的左上角坐标和右下角坐标.通过以上方法可以得到一个与表结构类似的二维列表.
3.1 表格识别任务数据集
1)ICDAR在2019年表格识别竞赛中发布的数据集ICDAR 2019.该数据集是目前表格识别领域使用最广泛的数据集,包含中英文、手写文档图像和现代电子文档图等各类复杂表格1639张,并含有表格区域和单元格区域的注释.
2)本研究使用移动设备拍摄了1250张图片作为数据集,其文档图像类型与ICDAR 2019数据集相同,手动添加了表格区域的注释.
3)ICDAR在2021年表格识别竞赛中采用的PubTabNet数据集.PubTabNet数据集是目前最大的公开可用数据集,包含56.8万余张图像,每个图像都有相应的表格结构和内容信息注释.此数据集的真实标签为HTML格式,可用于web应用程序.但其中的图像大部分为PDF中的截图,清晰度和质量较低.
3.2 模型评价标准
表格结构识别任务采用ICDAR 2021年竞赛的评价指标TEDS.TEDS采用树状结构表示表格结构(图8):树的根节点下有表格头(thead)和表格体(tbody)2个子节点,thead和tbody节点的子节点是表格行(tr),树的叶子节点是单元格(td),每个叶子节点包含行跨度(rowspan)、列跨度(colspan)和单元格内容(content)3种属性.
注:图中左上角为表格,其余部分为针对该表格创建的树状图.
图8 TEDS方法表格结构描述
TEDS采用树之间的距离来度量2棵树之间的相似度,计算公式为

(3)
其中,D′表示树编辑距离,Ta、Tb分别表示对比的2棵树的节点数.值越高表明2棵树相似度越高,识别到的表格结构越好.
3.3 实验方法
表格检测是表格结构识别的基础.本研究先在ICDAR 2019数据集上进行表格检测任务并裁剪出表格图像,随后将得到的目标检测模型用于后续任务.
在本研究自行收集的数据集上执行表格检测后,得到1 320张表格图像.对图像的表格线(分为横线和竖线)信息进行检测后,将1 320张带有线条信息的表格图像按照8∶1∶1的比例划分为训练集、验证集和测试集,送入改进后的Res-U-Net网络,将表格图像中属于表格线区域的像素点分类为横线和竖线,分割结果如图9所示.
图9 表格结构识别示例
3.4 实验结果
3.4.1表格线检测实验结果
为验证对U-Net语义分割模型的改进效果,对比了原始的U-Net网络和改进后的Res-U-Net网络的表现,结果见表1.其中,精确率(P)定义为预测出的区域属于真实区域的比例,召回率(R)定义为预测出的区域中属于真实区域的比例,F1分数用于综合分析模型的召回率和精确率,其计算公式如下:
表1 模型性能对比
表1结果显示,Res-U-Net的数值表现优于Vgg16-U-Net.同时,Res-U-Net在表格线检测任务中的表现也优于Vgg16-U-Net,由图10可见,改进后的网络分割出的表格线相对完整,说明加入残差结构后,表格线的特征在网络的更深层次得到了增强,信息丢失较少.综上,改进后的模型在各方面均优于原始的U-Net网络,本研究提出的改进方式有效.
A.Vgg16-U-Net模型的分割结果;B.Res-U-Net模型的分割结果.
图10 Vgg16-U-Net和Res-U-Net的分割效果
3.4.2表格检测实验结果
为验证本研究所提出的表格识别方法的性能,在本研究收集的1320张表格图像中添加了描述表格结构的HTML格式注释,同时将数据集中的表格图像按照表格类型分为不存在合并单元格的二维表(314张)、少线表或无线表(573张)、存在合并单元格的二维表(433张)3种类型.采用TEDS来衡量该方法在处理3种类型表格时的表现能力,具体结果如表2所示.
表2 所提方法在本实验收集的数据集上的TEDS得分
为进一步验证本研究所提方法的有效性,在PubTabNet的数据集上微调模型并与ICDAR 2021年表格识别竞赛中提出的方法进行对比.但由于PubTabNet数据集规模较大且缺乏表格线的注释,本研究仅在该数据集中随机抽取5 000张文档图像,添加表格线注释以进行训练.结果显示,在仅识别表格结构(忽略表格文字内容)时,本研究所提方法的TEDS评分为95.95,优于此竞赛中**的LGPMA方法(TEDS评分为95.53),说明本研究针对表格结构识别任务提出的方法有效.
本研究没有针对文字内容识别方法进行研究,在识别文字内容时借助了开源的文字识别模型,受到该模型识别结果的影响,本研究的总体TEDS评分略低于表现**的2种方法,但所提出的表格结构识别方法一定程度上弥补了内容识别错误对总体TEDS评分的影响,对比其余部分方法仍有较大优势(表3).
表3 所提方法与其他研究方法的对比
由于本方法注意到了表格线和文字块信息的相互作用,使用文字块位置信息和借助表格线识别到的单元格位置信息可以推断出哪些单元格为空单元格.因此,本方法在进行表格识别时无须加入空单元格注释,且其表现超越了部分使用空单元格注释的方法,取得了与最优结果相近的性能.此外,本研究结合加入的文字识别模块,根据识别到的表格结构信息列表在Excel中实现了表格重建,更具现实意义.
针对现有表格识别方法仅面向电子文档表格图像、处理无线或少线表格时能力不足且模型复杂的问题,提出了基于语义分割和目标检测技术的表格识别方法,结合表格文字内容和表格线完成表格结构的识别.此外,本研究基于U-Net提出了Res-U-Net模型,使网络在每一次采样中能获得更多的特征信息,一定程度上解决了U-Net网络采样次数过多时出现的特征丢失问题.
但是本研究所提方法在表格内容为公式或图片时处理能力仍显不足,而且仅在Excel中重建表格已不能满足社会发展的需要,自动提取表格内容并存入数据库已逐渐成为新的研究热点,这也将是笔者后续的工作目标.
袁贞明,男,教授,博士,主要从事人工智能、多媒体信息检索与分析、医学信息系统等方面的研究.
原文刊载于:
《杭州师范大学学报(自然科学版)》2024年第3期
为方便阅读,以上内容有删减。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/151581.html