复旦&中科院成果：对任意方向的文字进行识别

共 1992字，需浏览 4分钟

·

2022-02-09 17:36

编译：Bing

论文：https://arxiv.org/pdf/1703.01086.pdf

编者按：对图像中的文字进行识别已经有很多种方法了，但是大多是水平方向上的识别，一旦有了旋转角度，这些方法可能就“失灵”了。来自复旦大学和中国科学院的几位研究人员就提出了一种框架，可以识别图像中经过旋转的文本。

摘要

本文介绍了一种全新的基于旋转的框架，能对自然场景中任意方向的文字进行检测辨认。我们提出了Rotation Region Proposal Networks（RRPN），用于生成倾斜的框架，同时还带有图像旋转角度的信息。之后，这些信息会适应边界框，从而能更精确地在不同方向上确定文本区域。Rotation Region-of-Interest（RRoI）池化层是将随机方向的候选窗口映射到文本区域分类器的特征映射上。

整个框架是基于区域候选框的结构上搭建的，它与之前的文本检测系统相比，能保证在随机方向的文本检测上有更高的计算效率。我们在三种现实场景中对该框架进行了实验，发现了相较于之前的方法它所表现出的效率。

背景介绍

文本检测是CV领域一大热门话题，它的目标是在给定图像中定位文字区域，这项任务是很多复杂任务的前提，例如视觉分类、视频分析和其他移动应用。虽然已有很多商业产品落地，但是由于场景的复杂性，自然场景下的文字识别仍然受到很多限制，例如光线不均、图片模糊、角度扭曲、方向不同等等。而本文正是关注现实生活中不水平的文字区域。

最近一些研究提出了针对随机方向文本的检测方法，总的来说，这些方法大致包括两个步骤：分割网络（全卷积网络）以及用于倾斜候选框的几何方法。然而，对图像进行分割通常很耗时，并且一些系统需要多次后处理才能生成最终的文本区域候选框，所以并不如直接的检测网络高效。

在这篇论文中，我们提出了一种基于旋转的方法，和端到端的文本检测系统，该系统能生成任意方向的候选框。相较于之前的方法，我们的主要成果有：

这次的框架可以用基于候选框区域的方法预测文本线的方向，使候选框能更好地适应文本区域。框架中加入的新元素，例如RRoI池化层和旋转的候选框都整合到了架构中，保证高效的计算力。
我们还提出了对候选框区域新型的微调方法，提高任意方向文本检测的性能。
我们将新的框架应用到三种场景数据集上，发现它比此前的方法更精确、更高效。

具体框架

首先，框架的整体结构如下图所示：

框架的前部是VGG-16的卷积层，其中由两部分组成：RRPN和最后一个卷积层的特征映射的复制品。RRPN可以为文本样本生成随机方向的候选框，之后会对候选框进行回归处理以更好地适应文本区域。而从RRPN分出去的两个图层是分类层（cls）和回归层（reg）。

cls的分数和reg中的候选框信息组成了两个图层的输出结果，并且他们的损失通过计算总结构会形成一个多任务的损失函数。之后，RRoI池化层会扮演一个最大池化层的角色，将RRPN上任意方向的文本候选框投射到特征映射上。

最后，两个全卷积层结合成一个分类器，具有RRoI特征的区域被分为文本或者背景。

在训练阶段，真实的文本区域用五个元组表示旋转后的边界框，分别是（x, y, h, w, θ），（x, y）代表边界框几何中心的坐标，h和w分别代表边界框较短和较长的两边，θ表示夹角。

旋转连接点（anchors）

传统的连接点利用比例尺和长宽比参数表示，通常对现实中的文本检测并不有效。所以我们通过调整设计了旋转连接点（R-anchors）。具体表示可看下图：

其中有六个不同的旋转方向，是综合考虑覆盖和计算效率之后得出的结果。其次，由于文本区域经常有特殊的形状，长宽比改成了1:2、1:5、1:8，以覆盖更宽的文本。

学习旋转候选框

R-anchors生成后，为了执行网络学习，就需要对R-anchors进行采样。候选框的损失函数形成了多任务损失，定义为：

其中l是类别标签的表示器，参数p时softmax函数计算出的类别概率，v表示文本标签的预测元组，v*表示真实数值。

下图可以看到经过回归后的图像与未回归的对比：

（a）是输入的图像，（b）是没有经过回归处理的方向和连接点，（c）是经过处理的点

白线的方向就表示R-anchors的方向，白线的长短表示连接点对文字的反馈。

下图是不同多任务损失值的对比：

实验过程

我们分别在三个数据集上进行了实验：MSRA-TD500、ICDAR2015和ICDAR2013。三个数据集都是文本检测常用的数据集。首先我们对比了旋转和水平的候选框：

结果显示，基于旋转的方法能更精确地确定文字区域，不会包含太多的背景，这说明在框架中加入旋转策略的有效性。但是虽然检测效率有所提高，在MSRA-TD500中仍有检测失败的案例：

在不平衡的光线下（a）、非常小的字体上（b）以及过长的文本上（c）都会出现检测失败的情况

但最终在三种数据集上的表现还是很不错的：

浏览 3

点赞

收藏

分享

举报

评论

图片

表情

金山云文字识别（KOCR）基于业界领先的深度学习技术，可将图片中的文字内容智能识别为可编辑的文本，支持通用类、票据类、卡证类等多场景的文本识别，支持提供定制化服务，实现信息录入效率的有效提升

[cp]所谓的移动警务通，移动端证件识别信息采集是指，使用成熟的OCR文字识别技术，通过手机或者带有摄像头的终端设备对身份证在做视频流扫描识别，提取证件的照片做OCR文字识别，实现提取身份证信息，裁剪头像，并且存入证件信息数据库，不仅集合了身份证识别还包括驾驶证识别，行驶证识别，护照识别、港澳台胞证识别等。优点是：方案成本低，用于智能移动设备，使用环境方便，功能容易扩展。可提供SDK做二次开发（现在可以提供安卓、iOS、私有云、公有云等的证件识别SDK）证件识别应用场景：出租屋证件识别：入住旅客登记流动人口管理：入户普查特种行业：开锁业、家政、中介等行业证件识别登记展会、访

十七岁的权志龙

印刷文字识别-通用文字识别/OCR文字识别-极速数据

可识别一般的网络图片，返回图片中的文本信息。

文字识别技术的简介

关键词：OCR SDK 文字识别中文识别日文识别韩文识别英文识别藏文识别维文识别一、TH-OCR SDK综合文字识别系统软件V12.0简介 TH-OCR SDK综合文字识别系统软件V12.0是一种光学字符识别（OCR）软件开发包（OCR SDK）；TH-OCR SDK12.0为软件开发人员、系统集成商、数据加工商（BPO）、扫描仪、多功能一体机等硬件制造商（OEM），提供可靠、方便集成的OCR SDK开发包。二、支持语言种类 TH-OCR SDK支持中文识别、日文识别、韩文识别、英文识别，识别率高。 TH-OCR SDK世界独家支持中国国内少数民族语言识别技术：藏文识别、维吾尔文识别、维文识别、哈萨克文识别

谛听文字识别

谛听文字识别

文字识别经验

整个文字识别的算法流程可以分成四部分：预处理、文本行检测、文字识别、后处理。预处理包括图像方向校正（例如图像偏转90度，倒置）、文本行校正、图像质量增强（例如去除屏拍摩尔纹等）。预处理是为了处理特殊情况、提高检测和识别的精度。文本行检测目前以EAST和PSENET比较常见，目前来看，psenet精度更高，适用的场景丰富，对于文本行比较密集的场景和弯曲文本性能更优，但是psenet速度低于EAST，尤其是文本行越多，后处理占用时间较长。对于单字符情况，psenet的文本框的置信度较低，在较高置信度阈值时，容易导致最终检测不到，而较小的阈值容易引入噪声，所以需要根据具体场景设置一个合理的阈值。对于文本行识别，CRNN、attention

印刷文字识别-名片识别/OCR文字识别-极速数据

通过POST上传base64格式的图片内容，可识别图片中的名片信息，返回姓名、职务、手机、公司、地址、电话、传真、邮箱、网址、邮编等信息。

印刷文字识别-身份证识别/OCR文字识别-极速数据

通过POST上传base64格式的图片内容，可识别二代身份证、驾照、行驶证、军官证、中华人民共和国往来港澳通行证、台湾居民往来大陆通行证、大陆居民往来台湾通行证、签证、护照、户口本、居住证等证件信息。

文字识别简介

现在电脑、电子书可以帮助我们在网络上搜集资料，但当我们需要的资料在一些有权限的网站无法复制、下载时，大家都采用截图的方式保存资料，那后期这图片上的文字该怎么保存呢，一个字一个字的敲打整理，显然太耗时耗力，这时，OCR图文识别技术出现了，我们可以直接通过图片转文字的方式将文字整理出来。采用OCR文字识别技术实现资料的随时调用和检索，只需将需识别文字的图片上传到文字识别系统即可，对识别结果也可校对，识别速度快，应用这项OCR技术也可减少对史料的损坏以及增加资料的利用率等。OCR图文识别技术，帮助人们解决录入图片文字提取难题。文字识别包括图片OCR文字识别、视频OCR文字识别、场景文字OCR识别等。且支持PDF、BM

Python-文字识别

首先还是要安装tesseract OCR，即Optical Character Recognition，光学字符识别，谷歌开发的，在免费库中还是非常友好的，应用场景比较多，比如在爬取数据时可以识别验证码等，我是因为有一大批扫描文件需要转换成Excel，研究了一下，中间也遇到了很多问题，接下来可以带大家入个门。第一步需要下载tesseract OCR安装包（百度网上很多资源，如果搜到CSDN分析的文章里边的下载地址还是比较靠谱的，如果懒得百度可以后台私信无偿发你），还是注意安装位置，后边要设置环境变量第二步下载语言包，可以搜索已经训练好的现成的语言包（GitHub官方搜索下载，如果下载不下来可以百度或者后台私信无偿

点赞

收藏

分享

举报