document-ocr文档分析和识别项目

联合创作 · 2023-09-30 13:31

document-ocr

一个相对完整的文档分析和识别项目含以下五部分:

1. 文档分析数据，
2. 识别数据合成工具，
3. 文档版面分析模型，
4. 文本行识别模型，
5. 单字识别模型

数据

数据从网络抓取的公开上市公司年报数据 PDF　文件解析生成，有图片和文本的位置信息

网盘下载地提取码: nn1g

文本数据是标注到文本行的，部分数据会有些瑕疵，共34000样本

可以根据标注数据生成文本行识别数据

识别数据合成

单字和文本行数据合成工具能比较好的过滤字体中不支持的字符

相关算法实现

所有代码依赖 Tensorflow 1.14 和 opencv 3.x

1. 版面分析
2. 文本行识别
3. 单字识别

注

- 代码还有很多需要完善的地方，不在此列举，欢迎各种 issue

- 代码中有很多参数没有提出到命令行比如 learning_rate 等，希望使用的时候多读下代码

浏览 14

点赞

收藏

分享

举报

评论

图片

表情

document-ocr文档分析和识别项目

document-ocr一个相对完整的文档分析和识别项目含以下五部分:1.文档分析数据，2.识别数据合成工具，3.文档版面分析模型，4.文本行识别模型，5.单字识别模型Github地址Gitee地址

5. Python代码和项目文档

云脉文档识别

云脉文档识别服务，可快速精准识别普通文档、长微博、自然场景下的多国语言文字。

Python项目实战篇——常用验证码标注和识别(需求分析和实现思路)

Python爬虫与数据挖掘

ssdb-docsSSDB 文档项目

这个项目是 SSDB 数据库的文档源码项目。文档采用 Markdown 格式编写，可以生成 HTML

ssdb-docsSSDB 文档项目

这个项目是SSDB数据库的文档源码项目。文档采用Markdown格式编写，可以生成HTML网页。每个人都可以fork、编辑，然后提交pullrequest，给SSDB的文档做贡献。

云深文档-项目文档管理

云深文档-项目文档管理

docTROCR 文档文本识别库

由TensorFlow2和PyTorch提供支持，任何人都可以无缝访问光学字符识别获取预训练模型使用两阶段方法在docTR中实现端到端OCR：文本检测（定位单词），然后文本识别（识别单词中的所有字符）

docTROCR 文档文本识别库

由 TensorFlow 2 和 PyTorch 提供支持，任何人都可以无缝访问光学字符识别获取预训

Daux.io项目文档生成器

Daux.io 是一个文档生成器，它使用简单的文件夹结构和Markdown文件来动态创建自定义文档。

点赞

收藏

分享

举报