【text recognition算法】AON: Towards Arbitrarily-Oriented Text Recognition

    xiaoxiao2022-07-02  89

     

    CVPR 2018

    Introduction

      这个模型是作者针对基于STN的不规则文本识别算法难以训练,需要人工标记的缺点,来提出的一种全新的对任意方向文本进行识别的算法。

     

    Model

    整体架构

    整个模型分为三个部分,BCNN基本CNN层用来对input image提取出feature map,AON+FG是本算法的核心,基本思路是将文本方向分为Left2Right,Right2Left,Bottom2Top,Top2Bottom,对这四个方向提取四个sequence vector和一个权重向量,在FG层将四个sequence和权重进行组合形成最终的sequence,然后输入带有Attention机制的Decoder从而输出最终文本。

     

     

    2.1 BCNN

    输入输出是square feature maps

     

    2.2 AON+FG

    AON分为三个子网络horizontal network(HN),vertical network(VN),character placement clue network(CN)分别输出水平的两个向量,垂直的两个向量,和权重向量

    FG里根据公式9,10来计算最终的向量h

     

    Illustration

    照片围绕四个权重向量,颜色越深表示该方向为文本排列的方向

    经过AON+FG处理后对文本排列方向的表示。

    最新回复(0)