导航:首页 > 源码编译 > ocr算法难点

ocr算法难点

发布时间:2023-06-16 15:03:41

❶ OCR文字识别用的是什么算法

OCR文字识别用的是什么算法,解答如下

❷ OCR 概述

OCR技术作为机器视觉领域一个非常重要的研究反向,涉及的应用领域多种多样。现今,各应用领域已经出现了非常多的产品,包括卡片证件类识别、票据类识别、文字信息结构化视频类识别、自然场景下的文字识别等。本文主要从数据、算法两个方面概述目前OCR较为成熟的解决方案。

深度学习算法是非常依赖于数据数量与质量的,OCR也不例外。一般OCR任务中不仅需要识别具体的文字内容,还要识别文字具体所在位置,甚至结构化组织识别信息,所以图像数据中的监督信息就包括文字位置坐标和相应文本内容。标注数据的来源一般分为两类:人工标注和程序(模型)自动生成。

一般人工标注的成本比较大,首先需要搭建合适的标注平台,好在github上有几个开源的关于目标检测任务的标注平台供选择(参见 十个最常用深度学习图像/视频数据标注工具 或者 深度学习图像标注工具汇总 )。其次,构建专业的标注团队,尤其是涉及垂直领域的任务。另外还要设计数据质量监控机制,如标注数据交叉验证等。

数据自动生成的数据量大,成本小,唯一需要担心的就是生成的数据分布与真实数据分布有显着差异。针对文本检测和文本识别,目前的数据生成方案基本都是模拟真实背景,同时平滑地嵌入文本内容。

那么标注或生成多少数据量合适呢?当然,高质量数据肯定是越多越好的,如果非要给一个下限,一般文本检测任务图片数据量在万张级别,文本识别任务在百万张级别。

整体OCR识别算法一般是分为两个部分:文本检测和文本识别。

文本检测与目标检测算法的发展是息息相关的。目前主流的目标检测算法分为两类:

通用的目标检测算法对文本一般检测都不精准,原因主要包括大多数文本没有闭合边缘、文本行方向任意、文本排列不规则等,需要结合文本的结构与分布特点优化检测模块,其中包括 CTPN SegLink Rotation RPN Textboxes 等。

文本识别模型一般分为特征提取器(编码器)和解码器。

目前针对不同识别场景的都有相应的算法调优方案,模型拟合能力方面已经有了长足进步。相较于算法,如何获取高质量数据很大程度上影响着整个OCR项目成败,打通整个数据链路会是深度学习项目的关键,也会成为企业的核心竞争力。

❸ 介绍一下OCR技术

OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
OCR识别技术不仅具有可以自动判断、拆分、 识别和还原各种通用型印刷体表格,在表格理解上做出了令人满意的实用结果,能够自动分析文稿的版面布局,自动分栏、并判断出标题、横栏、图像、表格等相应属性,并判定识别顺序,能将识别结果还原成与扫描文稿的版面布局一致的新文本。表格自动录入技术,可自动识别特定表格的印刷或打印汉字、字母、数字,可识别手写体汉字、手写体字母、数字及多种手写符号,并按表格格式输出。提高了表格录入效率,可节省大量人力。同时支持将表格识别直接还原成PTF、PDF、HTML等格式文档;并可以对图像嵌入横排文本和竖排文本、表格文本进行自动排版面分析。

采用OCR识别技术,可以将其应用于银行票据光盘缩微系统,可以自动提取票据要素,可减轻操作员的工作量,减少重复劳动,尤其是在与银行事后且监督系统相结合后,可以替代原先的操作人员完成事后监督工作。由计算机自动识别票据上的日期、帐号、金额等要素,通过银行事后监督系统与业务系统中的数据进行比较,完成传统的事后监督操作;配有印章验证系统后,自动将凭证图像中的印章与系统中预留的印鉴进行比较,完成印章的真伪识别。

利用目前的高新技术-OCR,直接从凭证影像中提取金额、帐号等重要数据,代替人的手工录入,与条码识别/流水识别紧密结合,实现建立事后副本帐、完成事后监督的工作。OCR处理一般使用性能较好的PC机,OCR处理程序一经启动会自动扫描数据库中的凭证影像,发现有需OCR处理而未处理的,提取到本地进行处理。

OCR手写体、印刷体识别技术,能识别不同人写的千差万别的手写体汉字和数字,应用于本系统,识别凭证影像中储户填写的信息,如大写金额、小写金额、帐号、存期、日期、证件号等,可以代替手工录入。同时被识别得出的金额还要与流水识别所得的金额进行核对,核对成功,则OCR识别成功。这样处理是为了避免误判。

经过对银行产生的实际凭证进行的大量测试,在实际开发过程中,根据银行的实际需求,OCR技术在票据和表格识别能力和手写体自动识别能力上不断提升,目前处理速度可达到每分钟60~80张票据,存折识别率已经达到了85%以上,存单、凭条识别率达到90%以上,而85%以上的识别率就能减少80%以上的数据录入员。

❹ OCR文字识别的算法是什么

文通科技ocr文字识别技术是应用清华大学核心识别技术,经过多年优化完成的识别技术,对于横竖班,中英文混版的文字识别效果都非常好

❺ OCR文字识别用的是什么算法

首先OCR是模式识别的一个领域,所以整体过程也就是模式识别的过程。其过程整体来说可以分为以下几个步骤:

预处理:对包含文字的图像进行处理以便后续进行特征提取、学习。这个过程的主要目的是减少图像中的无用信息,以便方便后面的处理。在这个步骤通常有:灰度化(如果是彩色图像)、降噪、二值化、字符切分以及归一化这些子步骤。经过二值化后,图像只剩下两种颜色,即黑和白,其中一个是图像背景,另一个颜色就是要识别的文字了。降噪在这个阶段非常重要,降噪算法的好坏对特征提取的影响很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。如果文字行有倾斜的话往往还要进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸,在同一个规格下,才能应用统一的算法。
特征提取和降维:特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说,这个特征提取是比较容易的,因为数字只有10个,英文字母只有52个,都是小字符集。对于汉字来说,特征提取比较困难,因为首先汉字是大字符集,国标中光是最常用的第一级汉字就有3755个;第二个汉字结构复杂,形近字多。在确定了使用何种特征后,视情况而定,还有可能要进行特征降维,这种情况就是如果特征的维数太高(特征一般用一个向量表示,维数即该向量的分量数),分类器的效率会受到很大的影响,为了提高识别速率,往往就要进行降维,这个过程也很重要,既要降低维数吧,又得使得减少维数后的特征向量还保留了足够的信息量(以区分不同的文字)。
分类器设计、训练和实际识别:分类器是用来进行识别的,就是对于第二步,你对一个文字图像,提取出特征给,丢给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。在进行实际识别前,往往还要对分类器进行训练,这是一个监督学习的案例。成熟的分类器也很多,什么svm,kn,神经网络etc。我当时不知天高地厚用经典bp神经网络去学习,结果……呵呵……
后处理:后处理是用来对分类结果进行优化的,第一个,分类器的分类有时候不一定是完全正确的(实际上也做不到完全正确),比如对汉字的识别,由于汉字中形近字的存在,很容易将一个字识别成其形近字。后处理中可以去解决这个问题,比如通过语言模型来进行校正——如果分类器将“在哪里”识别成“存哪里”,通过语言模型会发现“存哪里”是错误的,然后进行校正。第二个,OCR的识别图像往往是有大量文字的,而且这些文字存在排版、字体大小等复杂情况,后处理中可以尝试去对识别结果进行格式化,比如按照图像中的排版排列什么的,举个栗子,一张图像,其左半部分的文字和右半部分的文字毫无关系,而在字符切分过程中,往往是按行切分的,那么识别结果中左半部分的第一行后面会跟着右半部分的第一行诸如此类。

OCR的大致内容差不多就是这样。

阅读全文

与ocr算法难点相关的资料

热点内容
dvd光盘存储汉子算法 浏览:757
苹果邮件无法连接服务器地址 浏览:963
phpffmpeg转码 浏览:671
长沙好玩的解压项目 浏览:145
专属学情分析报告是什么app 浏览:564
php工程部署 浏览:833
android全屏透明 浏览:737
阿里云服务器已开通怎么办 浏览:803
光遇为什么登录时服务器已满 浏览:302
PDF分析 浏览:485
h3c光纤全工半全工设置命令 浏览:143
公司法pdf下载 浏览:382
linuxmarkdown 浏览:350
华为手机怎么多选文件夹 浏览:683
如何取消命令方块指令 浏览:350
风翼app为什么进不去了 浏览:778
im4java压缩图片 浏览:362
数据查询网站源码 浏览:150
伊克塞尔文档怎么进行加密 浏览:892
app转账是什么 浏览:163