
论文题目:R2CNN:Rotational Region CNN for Orientation Robust Scene Text Detection
论文来源:2017CVPR
论文地址:https://arxiv.org/abs/1706.09579
论文代码:https://github.com/DetectionTeamUCAS/R2CNN_Faster-RCNN_Tensorflow
PS:总结在最后。
文章出发点:
作者提出了一个叫做Rotational Region CNN(R2CNN)的方法,该方法可用于自然场景中任意方向的文本检测。
贡献:
- 构建了一个新颖的任意方向场景文本检测的方法,该方法基于Faster R-CNN搭建的。RPN用于提取文本区域,修改后的Fast R-CNN用于文本区域分类、区域修正以及倾斜box的预测。
- 任意方向的文本检测问题是一个多任务问题。该方法的核心是对每个由RPN生成的候选框预测文本分数、轴对齐的box以及倾斜的最小box区域。
- 为了充分利用文字特征,作者对每个RPN的候选区域都做了几个感兴趣池化操作,池化后的特征连结起来用于进一步的检测。
- 本文修改的Faster R-CNN添加了一个更小的anchor用于检测小的场景文本,最后用斜的NMS去后处理检测候选结果。
方法:
在本文中,作者考虑到角度并不能很好地表达特殊的点,因而没有采用角度信息。每个矩形框的标注包含5个值

Rotational Region CNN
本文采用了两阶段目标检测方法,由区域提取和区域分类两部分组成。
RPN for proposing axis-aligned boxes
使用RPN生成轴对齐的bounding box来包围任意方向的文本。在轴对齐的box中文本会属于下列情形之一:1.水平方向的文本;2.垂直方向的文本;3.轴对齐对角线方向的文本。RPN能够生成面向任意文本的轴对齐框形式的文本区域。
为了解决小的场景文本的问题,在RPN中使用了更小尺寸的anchor,anchor的尺度为
ROIPoolings of different pooled sizes
由于一些文本的宽度大于他们的高度,本文尝试使用三种不同尺度的ROIPooling去捕捉更多的文本特征。池化后的特征进一步用于检测。具体来说,本文添加了两个池大小:11×3和3×11。
Regression for text/non-text scores, axis-aligned boxes, and inclined minimum area boxes
在本文的方法中,在RPN之后,本文将RPN生成的候选区域分类为文本或非文本,改进了包含任意方向文本的轴对齐的bounding box,预测了倾斜的bounding box。每个倾斜的box都与一个轴对齐的box相关联。尽管本文的检测目标是倾斜的边界框,但本文认为添加其他约束(轴对齐的边界框)可以提高性能。
Inclined non-maximum suppression
倾斜的交并比。对于紧密相邻的倾斜文本,正常的NMS可能会丢失一些文本,因为轴对齐框之间的IoU可能很高。但倾斜的NMS不会丢失文本,因为倾斜的IoU值低。

Training objective(Multi-task loss)
RPN的训练loss与Faster R-CNN的一样。
在每个候选区域的loss函数是文本/非文本分类loss和box回归loss的和。box的回归loss由两部分组成:轴对齐box的loss和倾斜的最小区域box的loss。在每个候选区域上,多任务loss函数定义如下:


实验:
Training Data
本文的训练数据集包含1000个来自ICDAR 2015的附加场景文本图片和2000个搜集到的文本图片。收集到的场景文本图片是不同于ICDAR 2015中的模糊文本的。为了支持任意面向场景的文本检测,本文通过旋转图像来增强ICDAR 2015训练数据集和我们自己的数据。在扩充之后,训练数据由39000张图片组成。
ICDAR 2015中的文本采用四个顺时针方向的四边形点坐标在单词水平上进行标记。通过计算包围四边形的最小面积矩形,从四边形中生成ground truth倾斜包围box(矩形数据)。然后计算最小轴对齐边框,该边框将包围文本作为ground truth轴对齐框。本文同样对采集的图像进行了类似的处理来生成ground truth数据。
Performance
本文在ICDAR 2015和ICDAR 2013两个数据集上评估了模型的性能。评估指标遵循ICDAR Robust Reading Competition的标准,为精度、召回率和F-measure。检测结果提交至竞赛网站,并在网上获得评比结果。
ICDAR 2015
该方法的召回率为79.68%,精密度为85.62%,F-measure为82.54%。
在实验中,作者主要分析了轴对齐box回归(
首先在ICDAR 2015上对所有模型进行单尺度测试;然后对R2CNN-3、R2CNN-4以及R2CNN-5进行了多尺度测试。实验结果如下:

与其他方法的对比:

ICDAR 2013
ICDAR 2013测试数据集包含233张聚焦的场景文本图像。图片中的文字是水平的。由于我们可以估计轴向框和倾斜框,本文使用轴向框作为ICDAR 2013的输出。和其他方法的比较结果如下:

这证明本文设计的方法对于水平文本检测也有一定的优势。
总结:
- 本文的方法是在Faster R-CNN的基础上进行改进的,目的是完成倾斜文本的检测。所设计的方法对Faster R-CNN的主体结构并没有太大的修改,该方法也可以换用其他的baseline,比如SSD和YOLO,对其他的检测框架有较强的适用性。
- 在其他斜框检测方法中,一般都是引入了角度信息,而作者引入的是相邻两点坐标以及矩阵的高,这样可以在一定程度上解决如-90°与90°混淆的问题,有利于文本识别的使用。
- 从实验结果上来看,R2CNN对倾斜和水平的文本检测都表现出了不错的优势,在对倾斜文本框进行检测时,数据集是对水平文本进行人为旋转构建的,与实际倾斜场景可能有些区别。