OCR技术




OCR技术

OCR简介

OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。

解决的问题

在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,
好不容易打印出来却发现源文件丢了;收集了一些名片,
却要一个一个地录入信息,很麻烦。

OCR文字识别技术能帮助我们解决这些难题。

技术特点

OCR识别系统目的很简单,就是把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,这将大大节省因键盘输入的人力与时间,提高办公自动化程度,实现真正的端到端的业务流程自动化。

常见的OCR流程如右图所示:

核心功能

  • 图像预处理
  • 文字检测
  • 文本识别

由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。由于这种处理工作是在文字识别之前,所以被称为预处理,一般包括灰度化、二值化,倾斜检测与校正,行、字切分,平滑,规范化等等。

CTPN(Connectionist Text Proposal Network)是目前应用最广的文本检测模型之一。其基本假设是单个字符相较于异质化程度更高的文本行更容易被检测,因此先对单个字符进行类似R-CNN的检测。之后又在检测网络中加入了双向LSTM,使检测结果形成序列提供了文本的上下文特征,便可以将多个字符进行合并得到文本行。

视觉注意力模型(CNN+LSTM+Attention技术),该模型首先在图像上采用滑动窗口CNN(Convolutional Neural Network,卷积神经网络)的方法进行图像特征提取,然后在CNN的顶部堆叠一个LSTM(Long Short-Term Memory networks,长短期记忆网络)进行序列特征提取,最后,使用注意力模型作为解码器输出最终的文字序列。

应用场景

资料存档/处理

将图片资料中的文字进行提取,为后续的数据后处理提供(如检索,翻译等)基础

辅助教学

将学生的作业/练习的文字转化成可编辑文字,供老师进行阅读和批改

智能阅卷

将学生的答题卡的文字转化成计算机可编码的文字,为人工智能评阅打分提供基础