近日,信息科学技术学院刘国柱教授团队在计算机视觉研究领域取得重要进展,相关成果以“HGR-Net: Hierarchical Graph Reasoning Network for Arbitrary Shape Scene Text Detection”为题发表在计算机视觉领域的国际顶级期刊IEEE Transactions on Image Processing(中科院一区TOP期刊,中国计算机学会A类推荐期刊,影响因子11.041)。金沙集团1862cc信息科学技术学院为第一作者单位和唯一通讯作者单位,刘国柱教授为该论文唯一通讯作者,2020级研究生毕恒悦为第一作者。
文字作为人类语言的书面形式,是人类获取信息和传递信息的重要载体。在自然场景中拍摄的以文字为内容的图像,被称为自然场景文本图像或场景文本图像。场景文本检测旨在于定位输入图像中文本内容的位置。近年来,深度学习技术在场景文本检测领域占据主导地位,基于深度学习的场景文本检测方法在模型精度和计算效率两个方面取得了显著进展。但是,成像质量良莠不齐、图像背景复杂多变、文字呈现形式丰富等问题均使得场景文本检测方法面临着众多严峻的挑战。
图1单词级别关系图和字符级别关系图的构建过程
面对上述挑战,本文基于自然场景文本自身的特点,从建模多粒度文本表征形式的角度出发,提出了基于层级关系图推理网络的任意形状场景文本检测方法。相较于现有的方法,该方法利用多粒度文本推荐区域生成网络,进行单词级别和字符级别目标定位,以此构建基于视觉联系的单词级别关系图和基于几何属性的字符级别关系图,并借助分层设计实现了跨粒度间的关系传播和信息交叉馈送,从而提高了模型的鲁棒性,克服了场景文本在大规模复杂场景下的检测难点。
图2层级关系图的可视化结果
上述工作得到了国家自然科学基金支持。
论文信息:
Title: HGR-Net: Hierarchical Graph Reasoning Network for Arbitrary Shape Scene Text Detection
Authors: Hengyue Bi, Canhui Xu, Cao Shi, Guozhu Liu*, Honghong Zhang, Yuteng Li, Junyu Dong
DOI: 10.1109/TIP.2023.3294822