什么是OCR？OCR技術(shù)詳解

更新時(shí)間:2020-09-30 來源:黑馬程序員瀏覽量:

光學(xué)字符識別(Optical Character Recognition)簡稱為“OCR”。ORC是指對包含文本資料的圖像文件進(jìn)行分析識別處理，獲取文字及版面信息的技術(shù)。

一般包括以下幾個(gè)過程：

1.圖像輸入

針對不同格式的圖像，有著不同的存儲格式和壓縮方式。目前，用于存取圖像的開源項(xiàng)目有OpenCV和CxImage等。

2.預(yù)處理

預(yù)處理主要包括二值化、噪聲去除和傾斜較正，具體內(nèi)容如下：

二值化：大多數(shù)情況下，使用攝像頭拍攝的圖片都是彩色圖像，彩色圖像包含的信息量非常豐富，需要進(jìn)行簡化。我們可以將圖片的內(nèi)容簡單地分為前景和背景，為了讓計(jì)算機(jī)更快地、更好地識別文字，需要先對彩色圖像進(jìn)行處理，使圖片只剩下前景與背景信息，即簡單地定義前景信息為黑色，背景信息為白色，這就是二值化圖。彩色圖像和二值化圖像處理前后對比如圖1所示。

噪聲清除：對于不同的文檔，噪聲的定義可以不同。根據(jù)噪聲的特征進(jìn)行消除處理，這就叫做噪聲去除。

傾斜校正：通常情況下，用戶拍攝的照片比較隨意，很有可能拍照文檔會(huì)產(chǎn)生傾斜。這時(shí)，需要使用文字識別軟件進(jìn)行校正。

3.版面分析

將文檔圖片分段落、分行的過程叫做版面分析。由于實(shí)際文檔的多樣性和復(fù)雜性，目前沒有一個(gè)固定的、最好的切割模型。

4.字符切割

由于拍照條件的限制，經(jīng)常會(huì)造成字符粘連、斷筆等情況，因此極大地限制了識別系統(tǒng)的性能。此時(shí)就需要文字識別軟件具備字符切割的功能。

5.字符識別

很早的時(shí)候就有模板匹配，后來是以特征提取為主。由于文字的位移、筆畫的粗細(xì)、斷筆、粘連、旋轉(zhuǎn)等因素的影響，極大地增加了提取的難度。

6.版面恢復(fù)

通常，人類希望識別后的文字，仍然按照原文檔圖片那樣排列著，保持段落不變、位置不變、順序不變，之后輸出到Word文檔或PDF文檔，這個(gè)過程就叫做版面恢復(fù)。

7.后處理、核對

不同的語言環(huán)境中，語言的邏輯順序是不同的。因此，需要根據(jù)語言特征的上下文，對識別后的結(jié)果進(jìn)行校正，這個(gè)過程就是后處理。

猜你喜歡：