图像中的文字识别算法研究论文？

共 612字，需浏览 2分钟

·

2022-02-09 17:41

以前做过一点类似的工作，不知道对你是否有帮助，你姑且参考一下：

1.OCR其实是很古老的一个技术了，我理解的OCR是印刷文本中的文字识别，或者手写体等，目前感觉已经没啥做的，

2.现在学术界研究得比较多的是自然场景中的文字识别，如街道上的广告牌，商场中的店铺名，在电商场景里面，如淘宝，拼多多等需要对图片中的文字识别，用于内容风控等。

3.目前图像类的算法基本都是要利用卷积神经网络来做的，所有你只能选深度学习来做了；

4.文字识别，与文字检测是在发论文的时候，是会区分的，你要确定你是只做检测还是做识别，还是两者都要做；

所以，我理解的你要做的是我说的第2种，在这个方向里面有可以具体细分，如竖版文字识别，不规则形状文字识别等

可以推荐的资料：

可以关注华科的白翔老师的工作：

Homepage of Xiang Bai

有论文也有code, 本科生可以先跑起来，再看看原理

2.阿里天池平台以前有过一个电商图片的文字检测，文字识别的比赛，github上应该有很多代码可以参考，

ICPR MTWI 2018 挑战赛二：网络图像的文本检测-天池大赛-阿里云天池

ICPR MTWI 2018 挑战赛一：网络图像的文本识别-天池大赛-阿里云天池

先简单写这么多吧，这都是我2年前的记忆，没有关注最新的内容，希望对你有帮助（不要脸的让你点赞，收藏）

20200514新增：

https://github.com/PaddlePaddle/PaddleOCR

浏览 5

点赞

收藏

分享

举报

评论

图片

表情

金山云文字识别（KOCR）基于业界领先的深度学习技术，可将图片中的文字内容智能识别为可编辑的文本，支持通用类、票据类、卡证类等多场景的文本识别，支持提供定制化服务，实现信息录入效率的有效提升

[cp]所谓的移动警务通，移动端证件识别信息采集是指，使用成熟的OCR文字识别技术，通过手机或者带有摄像头的终端设备对身份证在做视频流扫描识别，提取证件的照片做OCR文字识别，实现提取身份证信息，裁剪头像，并且存入证件信息数据库，不仅集合了身份证识别还包括驾驶证识别，行驶证识别，护照识别、港澳台胞证识别等。优点是：方案成本低，用于智能移动设备，使用环境方便，功能容易扩展。可提供SDK做二次开发（现在可以提供安卓、iOS、私有云、公有云等的证件识别SDK）证件识别应用场景：出租屋证件识别：入住旅客登记流动人口管理：入户普查特种行业：开锁业、家政、中介等行业证件识别登记展会、访

十七岁的权志龙

印刷文字识别-通用文字识别/OCR文字识别-极速数据

可识别一般的网络图片，返回图片中的文本信息。

【干货】centos下搭建图像文字识别

文字识别中CTC损失的直觉解释

小白学视觉

AI人工智能中的OCR文字识别技术

文字识别是利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，50年代开始探讨一般文字识别方法，并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期，出现了多种字体和手写体文字识别机，其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机，并着重于汉字识别的研究。证件识别，能实现拍照自动输入身份信息，让用户完全告别手动输入身份证、驾驶证、行驶证等证件信息。它支持Android、iOS、Java、Linux等多

郭富城的城

文字识别技术的简介

关键词：OCR SDK 文字识别中文识别日文识别韩文识别英文识别藏文识别维文识别一、TH-OCR SDK综合文字识别系统软件V12.0简介 TH-OCR SDK综合文字识别系统软件V12.0是一种光学字符识别（OCR）软件开发包（OCR SDK）；TH-OCR SDK12.0为软件开发人员、系统集成商、数据加工商（BPO）、扫描仪、多功能一体机等硬件制造商（OEM），提供可靠、方便集成的OCR SDK开发包。二、支持语言种类 TH-OCR SDK支持中文识别、日文识别、韩文识别、英文识别，识别率高。 TH-OCR SDK世界独家支持中国国内少数民族语言识别技术：藏文识别、维吾尔文识别、维文识别、哈萨克文识别

谛听文字识别

谛听文字识别

文字识别经验

整个文字识别的算法流程可以分成四部分：预处理、文本行检测、文字识别、后处理。预处理包括图像方向校正（例如图像偏转90度，倒置）、文本行校正、图像质量增强（例如去除屏拍摩尔纹等）。预处理是为了处理特殊情况、提高检测和识别的精度。文本行检测目前以EAST和PSENET比较常见，目前来看，psenet精度更高，适用的场景丰富，对于文本行比较密集的场景和弯曲文本性能更优，但是psenet速度低于EAST，尤其是文本行越多，后处理占用时间较长。对于单字符情况，psenet的文本框的置信度较低，在较高置信度阈值时，容易导致最终检测不到，而较小的阈值容易引入噪声，所以需要根据具体场景设置一个合理的阈值。对于文本行识别，CRNN、attention

文字识别简介

现在电脑、电子书可以帮助我们在网络上搜集资料，但当我们需要的资料在一些有权限的网站无法复制、下载时，大家都采用截图的方式保存资料，那后期这图片上的文字该怎么保存呢，一个字一个字的敲打整理，显然太耗时耗力，这时，OCR图文识别技术出现了，我们可以直接通过图片转文字的方式将文字整理出来。采用OCR文字识别技术实现资料的随时调用和检索，只需将需识别文字的图片上传到文字识别系统即可，对识别结果也可校对，识别速度快，应用这项OCR技术也可减少对史料的损坏以及增加资料的利用率等。OCR图文识别技术，帮助人们解决录入图片文字提取难题。文字识别包括图片OCR文字识别、视频OCR文字识别、场景文字OCR识别等。且支持PDF、BM

点赞

收藏

分享

举报