本站小編為你精心準備了錯位圖書檢測技術研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
針對錯位圖書檢測技術的應用,提出一種結合顏色及直線線段檢測(LSD)的圖書分割方法,以及基于索書標簽的圖書識別方法,同時設計了相關的實現算法。在LSD方法的基礎上,根據在架圖書的擺放信息、顏色分割后的部分圖書標簽、未分割圖書標簽的邊界直線預測結果對未分割圖書進行直線檢測,增加了圖書分割的準確率。將提出的檢測方法分別與其他直線檢測分割圖書方法,以及圖書識別方法進行對比。通過定量和定性分析,證明提出的方法確實能夠得到更準確、更可行的分割和識別結果。
關鍵詞:
圖書檢測;索書標簽;直線分割檢測器;輪廓局域增長;光學字符識別
圖書館大量圖書的借閱及歸還時的不正確放置,造成圖書管理人員大量重復的工作,也給估算在館圖書量以及讀者查詢、借閱造成極大不便。圖像捕獲以及圖像處理設備的發展普及使得圖書館管理自動化成為可能。近年來,盡管人們對圖書的分割、識別進行了較廣泛的研究,并提出了許多新穎的分割、識別算法[1],但是仍然很難得到準確的分割、識別結果。斯坦福大學的DavidChen等人給出圖書書庫管理系統[2],通過智能手機對書架上的圖書進行采集圖像,經過識別之后,通過互聯網或者圖書館的數據庫,可以得到圖書的詳細信息,包括書名、作者、價格等。而方向感應器以及高速網絡訪問使得低成本的自動跟蹤成為可能[3]。本文主要針對錯位圖書檢測技術涉及到的圖書分割、圖書識別兩個方面進行了深入的研究,并且針對其中的難點提出了切實有效的解決方法。
1圖書分割
1.1顏色分割圖書館中的索書標簽存在單一的背景和前景(索書號),如白色的背景和黑色的文字,而且噪聲少,如圖1所示。由于索書標簽一般在圖書的底部,因此將感興趣區域定義在原圖像的下半部分,故需要處理的圖像大小減少一半,減少了處理的時間和計算量。在這種情況下,利用特定的顏色可以快速定位同一幅圖像中所有索書標簽的大致位置。但由于實際環境的復雜性,如光線變化,遮擋,智能手機攝像頭的限制,捕獲的圖像中出現圖書曝光過足,書架靠近地面的部分光線不足,索書標簽的白色區域亮度不足,書脊上除了索書標簽其他部分也存在白色區域等難題。由于書脊整潔程度不一,光線變化,有些區域即使是同種顏色,經過一段時間使用,也變化較大,二值化后的圖像存在面積小的噪聲點或區域,而圖書標簽分割關注的感興趣區域是比這些噪聲面積大得多的背景是白色的標簽,故可以利用圖像處理形態學中的腐蝕方法剔除這些噪聲[4],腐蝕核大小為5,得到的結果如圖2所示。由圖2可以看出,書脊之間存在黑色的細縫,而這些細縫把大部分圖書分割開來。再者在同一本書中索書標簽與其他區域有明顯的分割區域,故可以通過連通區域分析,把大部分索書標簽分別表示成單獨的連通區域。進一步分析,書脊上的一些字形成的連通區域,相對索書標簽小很多,因此可以通過限制連通區域的面積大小,去除一部分小的白色連通區域,實驗中,取面積閾值為30000像素點,保留下的連通區域如圖3所示,不同的連通區域用不同的顏色表示,得到的連通區域個數為14。
1.2基于LSD的圖書分割經過顏色分割的局域主要是白色的部分,而這些局域可能不包括書脊邊緣的直線,為了更好地檢測到書本邊緣的直線,這里增寬顏色分割后的各個局域,增寬的規則是向左向右分別延寬15像素,對在捕獲圖像中最左或者最右的局域,延長的最大寬度是15像素與局域左右邊界到達相應圖像邊界的差值兩者之間的最大值。采用linesegmentdetector檢測圖像中的直線。考慮到圖書館中的圖書一般豎直地擺放著,即使有些傾斜,傾斜的角度也不大,定義候選直線的傾斜角度范圍為(3π8,5π8)。圖像中書脊邊緣保持一個主方向角度,即MainAngle,實驗中默認的值為π2,并且傾斜角度在主方向角度一定的范圍內,在實驗中,選擇在最左邊或者最右邊20像素的局域中的直線,這些直線中的兩個端點都在邊界20個像素的范圍內,再者另外一個條件是直線的傾斜角度與π2的差值要小于π8,則把這些符合條件的直線的傾斜角度定義為要進行直線檢測局域的主方向角度。得到主方向MainAngle之后,保留與主方向角度偏差π16的直線。書脊邊緣的直線相對書脊其他部分的直線如文字、圖形中的直線要長,即在圖像所占的比率大于某個閾值[2],通過實驗,定義候選直線占圖像高度的閾值為0.15。經過上述規則可以得到書脊的邊緣直線。根據得到的直線,用數組lines6表示,再將圖書分割出來。圖書的邊緣存在多條直線,但都聚集在很小的區間而且直線的傾斜角度差不多,再者圖書的厚度一般大于圖書間的間隔,故利用這些先驗知識,采用算法1可以得到一組組包含圖書書脊的局域。輸出:Vector<Rect>Label(輸出一組矩形局域,用左上角坐標、高度、寬度描述,即候選的圖書)。(1)如果第一條直線與圖像最左邊的間隔大于70,則將Rect(0,0,x1,Height)輸出到Label中。x1為該直線左端點的x坐標值。(2)依次在圖像中從左到右搜索未處理的直線,如果找到,則在該直線附近的20個像素搜索類似的直線,并把20個像素范圍內最后的直線作為圖書起始的直線line1;如果未找到,則輸出Label結束。(3)從第(2)步得到的圖書起始直線,接著往右搜索類似的直線,如果未搜索到,則將Rect(line1.x,0,Width,Height)輸出到Label。
2圖書標簽分割
經過顏色分割和直線分割后可以得到如圖4(a)所示的圖書局域。由于圖書標簽上黑色的字符與白色的背景存在明顯的反差,通過Canny算子邊緣檢測可以得到字符清晰的邊緣,而且圖書標簽上沒有太多的噪聲,如圖4(b)所示。要分割出字符,主要關注的是字符外圍最小矩形的幾何特征[5]。因此,通過連通域分析,可以得到如圖4(c)所示的一組連通局域。一些不屬于字符的噪聲局域可以通過面積、高度、寬度、高寬比來去除,進而初略篩選出候選的字符連通局域[6]。通過輪廓局域增長進一步定位包含所有符合字符外圍的最小矩形局域。由于檢測到的輪廓在數組中的表示是按照從下到上,從右到左的順序排列的,因此輪廓局域增長從右下角第一個符合初略篩選的候選輪廓開始,按照式(1)來判斷兩個候選的輪廓是否符合圖書標簽上字符的距離關系。為了得到完整的圖書標簽,進行新一輪的輪廓局域增長,所不同的是,此時初始輸入值包括得到的一組候選圖書標簽矩形局域,然后是所有的輪廓。對于每一個矩形局域,把所有附近的輪廓包含進這個矩形局域,并對這個矩形局域進行更新。針對圖書標簽中文字亮度分布的不一,采用不同的閾值,可以有效地分割出圖像中的文字信息。輪廓局域增長之后得到的矩形局域不止一個,需要進一步剔除不是圖書標簽的局域。圖書標簽包含兩行字符,且這兩行字符之間的間隔大于5個像素。再者每行字符閾值化后在行方向上的投影值個數大于17,如算法3所示,閾值化采用自適應高斯方法,核大小為5×5。
3字符識別
形狀上下文是一種描述形狀的方式,可用來評估形狀的相似性。基本的思想是取輪廓上形狀的n個點。對形狀上的每個點pi,考慮n-1維向量,它們將pi和所有其他的點連接起來。這些向量的集合是對形狀上那個點一種豐富的描述。關鍵的思想是基于相對位置的分布是一種魯棒、簡潔和有高度區別性的描述子。支持向量機SVM根據有限的訓練樣本仍然保證獨立測試集誤差保持在一個小的范圍。即由有限的樣本信息,在模型的學習能力和復雜性間尋求最佳契合點,以獲得最優的推廣能力。本文采用林智仁博士開發的SVM軟件包LIBSVM按照相應的格式對數據集進行標準化,對要處理的數據進行縮放操作。對數據集進行縮放操作,一方面是為了避免特征值過小或過大;另外一方面是避免在訓練時為了計算核函數而導致計算內積的時候引起數值計算的困難。一般將數據縮放到[-1,1]或是[0,1]之間。進而利用svmtrain對訓練數據集進行訓練,得到SVM訓練模型,進一步根據訓練獲得的模型對未知數據集進行預測。
4實驗結果與分析
為了評估圖書索書標簽分割和識別的結果,實驗采集了圖書書脊的樣本,并作為圖書分割和識別的數據集。采用TesseractOCR引擎對僅僅包含字符和標點符號的索書標簽進行識別[7]。一般來說,圖書標簽第2行文字對圖書識別起到關鍵性的作用,如果第2行的文字被完整的識別,那么判斷該本書對應圖書館數據庫中的哪本書也就容易得多。如表1所示,實驗中從567本圖書中正確地分割出554本圖書,分割率為97.7%,超過結合顏色分割和Hough直線檢測的方法,分割率為89.77%。盡管如此,在圖書書脊分割中也有些失敗,原因是一些書脊太薄以致不能被檢測到或者曝光太足,書脊上的高亮造成在圖像中圖書的邊界區域直線根本不明顯。在本系統中,平均一個索書標簽有0.64個字符不能被識別,比UJI大學圖書館機器人索書標簽識別的方法效果要好。為了更好地評估識別的結果,采用fmeasure作為評估的方法,實驗中,索書標簽識別的結果為fmeasure88.66%,準確率為87.74%,召回率為89.59%。索書標簽識別如圖5所示。對于圖5(a),從左往右數第2本書及第6本書被識別為“TP391.4X3283”,“H6251.H3283”。第2本書由于字體的原因上端和下端都突出一部分,有點類似X,由于出現在局域的邊界受噪聲的干擾故識別為X。第6本書由于采集圖像時,受第7本書的遮擋,“TP391.41”顯示不完全,故造成識別錯誤。但是第2、第6本書第2行都識別正確,一般情況下同個書架同一行的圖書中索書標簽第1行的文字都類似,第2行對識別的結果有較大作用,故該圖像中所有圖書都能被識別。對于圖5(b),從右往左數第4本書被識別為“P391.413272”,其原因也是索書標簽的貼法不正確,“T”這個字母不在書脊上,故這種情況只能在開始貼索書標簽的時候確保正確無誤,不過“T”字母的缺少并不影響該書被正確的識別。從右往左數第1本書因為捕獲圖像時沒有捕獲圖書標簽,故為空。因此可認為該圖像中所有的圖書都被正確識別。對于圖5(c),從左到右第1本、第9本、第10本書都沒有被正確識別。原因是這三本書太薄,索書標簽在這三本書的書脊上不能完全顯示,因此也就不能被OCR識別。針對該情況可以結合射頻識別技術來識別太薄的圖書,以提高總的圖書識別率。根據實驗結果,可以得到基于索書標簽的分割與識別在圖書館自動化管理中有很大的用途,并且結合顏色分割與直線檢測的圖書分割,輪廓局域增長而實現的索書標簽的分割有效,而且更可行。在輪廓局域增長中,通過實驗也表明索書標簽候選局域進一步的優化過程,能包含不完整、斷裂的字符輪廓,因此能將索書標簽完整地分割出來。
5結論
本文深入研究了基于圖像識別的錯位圖書識別技術,主要包括圖書分割、標簽分割、索書標簽識別,錯位圖書檢測,并對其中涉及的技術和算法做了深入的闡述和調研。通過實驗證明所提出方法的有效性與可行性。重點研究了基于顏色分割和直線線段檢測相結合的圖書分割方法,將本文提出的方法和其他圖書分割,索書標簽識別的方法進行對比,通過定量和定性的分析,證明了本文提出的方法能夠得到更準確、更有效的實驗結果。下一步針對圖書太薄,索書標簽太舊、模糊不清的情況,結合射頻識別加以補充,將大大提高圖書識別的準確率。
參考文獻
[1]康志亮,許麗佳.基于小波的紅外圖像去噪算法研究[J].計算機仿真,2011,28(1):265267.
[2]游福成.數字圖像處理(DigitalImageProcessing)[M].北京:電子工業出版社,2011:6768.
[3]匡金駿,熊慶宇,柴毅.基于核稀疏分類與多尺度分塊旋轉擴展的魯棒圖像識別[J].模式識別與人工智能,2013,26(2):129135.
[4]劉波,梅瑛,李瑞琴.基于TRIZ理論的圖書分揀機的設計研究[J].機械設計與制造,2013(2):2325.
[5]CHEND,TSAIS,HSUCH,etal.Mobileaugmentedrealityforbooksonashelf[C]//Proceedingsof2011IEEEInternationalConferenceonMultimediaandExpo.2011:16.
[6]孟鋼,賀杰,鮑莉,等.基于遙感圖像分塊直線特征檢測的機場跑道檢測方法[J].航空學報,2014,35(7):19571965.
[7]趙眾,常燦,陳磊.基于圖像識別技術的煙包封條缺陷檢測[J].北京工業大學學報,2014,40(7):986990.[8]張會敏,謝澤奇,張云龍.紅外圖像報警系統的研究與實現[J].計算機測量與控制,2011,19(2).
作者:孫繼周 王小雄 羅佳佳 單位:南昌航空大學 圖書館 江西農業大學 圖書館 江西中醫藥大學 圖書館