OCR技术

解决的问题

在日常生活工作中，我们难免会遇到一些问题，比如自己辛辛苦苦写完的资料，
好不容易打印出来却发现源文件丢了；收集了一些名片，
却要一个一个地录入信息，很麻烦。

OCR文字识别技术能帮助我们解决这些难题。

图像预处理
文字检测
文本识别

由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变，产生断笔、粘连和污点等干扰，所以在进行文字识别之前，要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前，所以被称为预处理，一般包括灰度化、二值化，倾斜检测与校正，行、字切分，平滑，规范化等等。

CTPN(Connectionist Text Proposal Network)是目前应用最广的文本检测模型之一。其基本假设是单个字符相较于异质化程度更高的文本行更容易被检测，因此先对单个字符进行类似R-CNN的检测。之后又在检测网络中加入了双向LSTM，使检测结果形成序列提供了文本的上下文特征，便可以将多个字符进行合并得到文本行。

视觉注意力模型（CNN+LSTM+Attention技术），该模型首先在图像上采用滑动窗口CNN（Convolutional Neural Network，卷积神经网络）的方法进行图像特征提取，然后在CNN的顶部堆叠一个LSTM（Long Short-Term Memory networks，长短期记忆网络）进行序列特征提取，最后，使用注意力模型作为解码器输出最终的文字序列。

OCR技术

OCR简介

OCR英文全称是Optical Character Recognition，中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式。

解决的问题

技术特点

核心功能

应用场景

资料存档/处理

辅助教学

智能阅卷