導航:首頁 > 源碼編譯 > ocr演算法難點

ocr演算法難點

發布時間:2023-06-16 15:03:41

❶ OCR文字識別用的是什麼演算法

OCR文字識別用的是什麼演算法,解答如下

❷ OCR 概述

OCR技術作為機器視覺領域一個非常重要的研究反向,涉及的應用領域多種多樣。現今,各應用領域已經出現了非常多的產品,包括卡片證件類識別、票據類識別、文字信息結構化視頻類識別、自然場景下的文字識別等。本文主要從數據、演算法兩個方面概述目前OCR較為成熟的解決方案。

深度學習演算法是非常依賴於數據數量與質量的,OCR也不例外。一般OCR任務中不僅需要識別具體的文字內容,還要識別文字具體所在位置,甚至結構化組織識別信息,所以圖像數據中的監督信息就包括文字位置坐標和相應文本內容。標注數據的來源一般分為兩類:人工標注和程序(模型)自動生成。

一般人工標注的成本比較大,首先需要搭建合適的標注平台,好在github上有幾個開源的關於目標檢測任務的標注平台供選擇(參見 十個最常用深度學習圖像/視頻數據標注工具 或者 深度學習圖像標注工具匯總 )。其次,構建專業的標注團隊,尤其是涉及垂直領域的任務。另外還要設計數據質量監控機制,如標注數據交叉驗證等。

數據自動生成的數據量大,成本小,唯一需要擔心的就是生成的數據分布與真實數據分布有顯著差異。針對文本檢測和文本識別,目前的數據生成方案基本都是模擬真實背景,同時平滑地嵌入文本內容。

那麼標注或生成多少數據量合適呢?當然,高質量數據肯定是越多越好的,如果非要給一個下限,一般文本檢測任務圖片數據量在萬張級別,文本識別任務在百萬張級別。

整體OCR識別演算法一般是分為兩個部分:文本檢測和文本識別。

文本檢測與目標檢測演算法的發展是息息相關的。目前主流的目標檢測演算法分為兩類:

通用的目標檢測演算法對文本一般檢測都不精準,原因主要包括大多數文本沒有閉合邊緣、文本行方向任意、文本排列不規則等,需要結合文本的結構與分布特點優化檢測模塊,其中包括 CTPN SegLink Rotation RPN Textboxes 等。

文本識別模型一般分為特徵提取器(編碼器)和解碼器。

目前針對不同識別場景的都有相應的演算法調優方案,模型擬合能力方面已經有了長足進步。相較於演算法,如何獲取高質量數據很大程度上影響著整個OCR項目成敗,打通整個數據鏈路會是深度學習項目的關鍵,也會成為企業的核心競爭力。

❸ 介紹一下OCR技術

OCR技術是光學字元識別的縮寫(Optical Character Recognition),是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。可應用於銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。適合於銀行、稅務等行業大量票據表格的自動掃描識別及長期存儲。相對一般文本,通常以最終識別率、識別速度、版面理解正確率及版面還原滿意度4個方面作為OCR技術的評測依據;而相對於表格及票據, 通常以識別率或整張通過率及識別速度為測定OCR技術的實用標准。
OCR識別技術不僅具有可以自動判斷、拆分、 識別和還原各種通用型印刷體表格,在表格理解上做出了令人滿意的實用結果,能夠自動分析文稿的版面布局,自動分欄、並判斷出標題、橫欄、圖像、表格等相應屬性,並判定識別順序,能將識別結果還原成與掃描文稿的版面布局一致的新文本。表格自動錄入技術,可自動識別特定表格的印刷或列印漢字、字母、數字,可識別手寫體漢字、手寫體字母、數字及多種手寫符號,並按表格格式輸出。提高了表格錄入效率,可節省大量人力。同時支持將表格識別直接還原成PTF、PDF、HTML等格式文檔;並可以對圖像嵌入橫排文本和豎排文本、表格文本進行自動排版面分析。

採用OCR識別技術,可以將其應用於銀行票據光碟縮微系統,可以自動提取票據要素,可減輕操作員的工作量,減少重復勞動,尤其是在與銀行事後且監督系統相結合後,可以替代原先的操作人員完成事後監督工作。由計算機自動識別票據上的日期、帳號、金額等要素,通過銀行事後監督系統與業務系統中的數據進行比較,完成傳統的事後監督操作;配有印章驗證系統後,自動將憑證圖像中的印章與系統中預留的印鑒進行比較,完成印章的真偽識別。

利用目前的高新技術-OCR,直接從憑證影像中提取金額、帳號等重要數據,代替人的手工錄入,與條碼識別/流水識別緊密結合,實現建立事後副本帳、完成事後監督的工作。OCR處理一般使用性能較好的PC機,OCR處理程序一經啟動會自動掃描資料庫中的憑證影像,發現有需OCR處理而未處理的,提取到本地進行處理。

OCR手寫體、印刷體識別技術,能識別不同人寫的千差萬別的手寫體漢字和數字,應用於本系統,識別憑證影像中儲戶填寫的信息,如大寫金額、小寫金額、帳號、存期、日期、證件號等,可以代替手工錄入。同時被識別得出的金額還要與流水識別所得的金額進行核對,核對成功,則OCR識別成功。這樣處理是為了避免誤判。

經過對銀行產生的實際憑證進行的大量測試,在實際開發過程中,根據銀行的實際需求,OCR技術在票據和表格識別能力和手寫體自動識別能力上不斷提升,目前處理速度可達到每分鍾60~80張票據,存摺識別率已經達到了85%以上,存單、憑條識別率達到90%以上,而85%以上的識別率就能減少80%以上的數據錄入員。

❹ OCR文字識別的演算法是什麼

文通科技ocr文字識別技術是應用清華大學核心識別技術,經過多年優化完成的識別技術,對於橫豎班,中英文混版的文字識別效果都非常好

❺ OCR文字識別用的是什麼演算法

首先OCR是模式識別的一個領域,所以整體過程也就是模式識別的過程。其過程整體來說可以分為以下幾個步驟:

預處理:對包含文字的圖像進行處理以便後續進行特徵提取、學習。這個過程的主要目的是減少圖像中的無用信息,以便方便後面的處理。在這個步驟通常有:灰度化(如果是彩色圖像)、降噪、二值化、字元切分以及歸一化這些子步驟。經過二值化後,圖像只剩下兩種顏色,即黑和白,其中一個是圖像背景,另一個顏色就是要識別的文字了。降噪在這個階段非常重要,降噪演算法的好壞對特徵提取的影響很大。字元切分則是將圖像中的文字分割成單個文字——識別的時候是一個字一個字識別的。如果文字行有傾斜的話往往還要進行傾斜校正。歸一化則是將單個的文字圖像規整到同樣的尺寸,在同一個規格下,才能應用統一的演算法。
特徵提取和降維:特徵是用來識別文字的關鍵信息,每個不同的文字都能通過特徵來和其他文字進行區分。對於數字和英文字母來說,這個特徵提取是比較容易的,因為數字只有10個,英文字母只有52個,都是小字元集。對於漢字來說,特徵提取比較困難,因為首先漢字是大字元集,國標中光是最常用的第一級漢字就有3755個;第二個漢字結構復雜,形近字多。在確定了使用何種特徵後,視情況而定,還有可能要進行特徵降維,這種情況就是如果特徵的維數太高(特徵一般用一個向量表示,維數即該向量的分量數),分類器的效率會受到很大的影響,為了提高識別速率,往往就要進行降維,這個過程也很重要,既要降低維數吧,又得使得減少維數後的特徵向量還保留了足夠的信息量(以區分不同的文字)。
分類器設計、訓練和實際識別:分類器是用來進行識別的,就是對於第二步,你對一個文字圖像,提取出特徵給,丟給分類器,分類器就對其進行分類,告訴你這個特徵該識別成哪個文字。在進行實際識別前,往往還要對分類器進行訓練,這是一個監督學習的案例。成熟的分類器也很多,什麼svm,kn,神經網路etc。我當時不知天高地厚用經典bp神經網路去學習,結果……呵呵……
後處理:後處理是用來對分類結果進行優化的,第一個,分類器的分類有時候不一定是完全正確的(實際上也做不到完全正確),比如對漢字的識別,由於漢字中形近字的存在,很容易將一個字識別成其形近字。後處理中可以去解決這個問題,比如通過語言模型來進行校正——如果分類器將「在哪裡」識別成「存哪裡」,通過語言模型會發現「存哪裡」是錯誤的,然後進行校正。第二個,OCR的識別圖像往往是有大量文字的,而且這些文字存在排版、字體大小等復雜情況,後處理中可以嘗試去對識別結果進行格式化,比如按照圖像中的排版排列什麼的,舉個栗子,一張圖像,其左半部分的文字和右半部分的文字毫無關系,而在字元切分過程中,往往是按行切分的,那麼識別結果中左半部分的第一行後面會跟著右半部分的第一行諸如此類。

OCR的大致內容差不多就是這樣。

閱讀全文

與ocr演算法難點相關的資料

熱點內容
dvd光碟存儲漢子演算法 瀏覽:757
蘋果郵件無法連接伺服器地址 瀏覽:963
phpffmpeg轉碼 瀏覽:672
長沙好玩的解壓項目 瀏覽:145
專屬學情分析報告是什麼app 瀏覽:564
php工程部署 瀏覽:833
android全屏透明 瀏覽:737
阿里雲伺服器已開通怎麼辦 瀏覽:803
光遇為什麼登錄時伺服器已滿 瀏覽:302
PDF分析 瀏覽:486
h3c光纖全工半全工設置命令 瀏覽:143
公司法pdf下載 瀏覽:382
linuxmarkdown 瀏覽:350
華為手機怎麼多選文件夾 瀏覽:683
如何取消命令方塊指令 瀏覽:350
風翼app為什麼進不去了 瀏覽:779
im4java壓縮圖片 瀏覽:362
數據查詢網站源碼 瀏覽:151
伊克塞爾文檔怎麼進行加密 瀏覽:893
app轉賬是什麼 瀏覽:163