Tesseract OCR图像识别类库
Tesseract OCR 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式(--oem 0)启用与Tesseract 3的兼容性。它还需要训练有素的数据文件,这些文件支持传统引擎,例如来自tessdata存储库的文件。
Tesseract 架构:
首席开发人员是Ray Smith。维护者是Zdenko Podobny。有关贡献者的列表,请参阅AUTHORS和GitHub的贡献者日志。
Tesseract 支持 unicode(UTF-8),可以“开箱即用” 识别100多种语言。
Tesseract支持各种输出格式:纯文本,hOCR(HTML),PDF,不可见文本的PDF,TSV。主分支还具有ALTO(XML)输出的实验支持。
您应该注意,在许多情况下,为了获得更好的OCR结果,需要提高您给Tesseract的图像质量。
该项目不包括GUI应用程序。如果您需要,请参阅3rdParty维基页面。
可以训练Tesseract识别其他语言。有关详细信息,请参阅Tesseract培训。
支持的编译器:
- GCC 4.8 and above
- Clang 3.4 and above
- MSVC 2015, 2017, 2019
评论
Tesseract OCR图像识别类库
TesseractOCR该软件包包含一个OCR引擎- libtesseract和一个命令行程序- tesseract。Tesseract4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于
Tesseract OCR图像识别类库
0
Tesseract OCR iOSiOS 开源 OCR 引擎
Tesseract OCR iOS 是个 iOS5+ 框架,支持 armv7s 和 arm64 编译
Tesseract OCR iOSiOS 开源 OCR 引擎
0
Tesseract OCR iOSiOS 开源 OCR 引擎
TesseractOCRiOS是个iOS5+框架,支持armv7s和arm64编译。Tesseract可能是最精确的开源OCR引擎,结合Leptonica图像处理库可以查看大量的图像格式,支持超过60
Tesseract OCR iOSiOS 开源 OCR 引擎
0
使用Tesseract做文字识别(OCR)
前言
OCR(optical character recognition,光学字符识别)是指直接将包含文本的图像识别为计算机文字(计算机黑白点阵)的技术。图像中的文本一般为印刷体文本。
Tesseract是github上的OCR开源库,今天我将使用Tesseract来进行文字识别。
安装TESSERACT
安装Tesseract挺简单的,直接按照官网上安装方法安装即可。安装完记得配一下环境变量。
Tesseract官网
我是在Win10下安装的,打开命令行,输入tesseract -v查看Tesseract版本号,输出以下信息表示安装成功:
用TESSERACT做文字识别
现在我使用Tesseract来识别下面图
小糊糊
0