一:简介

OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后由Google进行改进、修改bug、优化,重新发布。

二:训练自定义字库

本文大量参考学习以下文章:

Tesseract-OCR 中文识别与训练字库 : https://www.jianshu.com/p/3326c7216696 
Tesseract5.0训练字库,提高OCR识别率:https://www.cnblogs.com/pyweb/p/11457519.html 
Tesseract-OCR-v5.0中文识别,训练自定义字库:http://www.likecs.com/show-90988.html

下面发一个来自网络的已经经过训练过的可用的简体中文字库

链接:https://pan.baidu.com/s/1a2RHUj10mJu7vGAHGVFotw  
提取码:k9v7  

评论关闭
IT源码网

微信公众号号:IT虾米 (左侧二维码扫一扫)欢迎添加!

Tesseract5.0 图像识别本地服务 二 【字库、训练识别模型】