【text recognition算法】ESIR: End-to-end Scene Text Recognition via Iterative Image Rectification

    xiaoxiao2022-07-05  194

     

    CVPR 2019

     

    Introduction

      这个和ATSER算法相似都是由Rectification network和recognition network组成,不过创新在于在对图片变形时,ASTER学习到TPS变换后仅做一次变换,本算法循环TPS变换N次。

    Model

    整体框架

    2.1 Iterative Rectification Network

    2.1.1 Line-Fitting Transformation

     

    由于TPS变换需要找到control point,所以作者提出了一种描述文本位置的模型,即一个多项式描述文字中心连成的曲线,多个直线方程和长度表示每个字符的分割线。那么,control point就是分割线的端点。然后计算TPS的参数矩阵T,并对图片所有点进行变换。

    2.1.2 Iterative Rectification

    循环变换就是重复上一步的步骤,不过多次迭代后,由于在图形变换需要双线性插值这样会导致丢失关键像素信息,出现“boundary effect”。因此作者将每次TPS变换加在input image,而intermediately rectified image只作为预测control points。

    2.2 Recognition Network

    预测网络本文选的是ResNet+BiLSTM+Attention.

     

     

     

    最新回复(0)