本站小編為你精心準備了多儲備池回聲狀態網絡研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1引言
隨著計算機技術、Internet網絡以及存儲技術的發展,各種形式的數字信息正在以驚人的速度增長。數字圖像作為數字信息的重要成員之一,以其內容豐富、形象生動、清晰明了等特點在社會生活中扮演著越來越重要的角色,與此同時,人們對圖像檢索的需求也越來越高。20世紀90年代,基于內容的圖像檢索技術(CBIR)應運而生,該技術與圖像識別技術進行了深層次的結合,但單純的圖像低層特征無法表示圖像的內在本質,深層語義得不到很好的體現,也就是存在所謂的“語義鴻溝”。由于機器學習技術能夠很好地獲取圖像低層特征和文字描述之間的對應關系,越來越多的研究者將機器學習技術應用于圖像的語義映射之中,以解決“語義鴻溝”問題,并取得了一定的成果。Li等將模糊支持向量機(FSVM)應用于圖像分類與檢索中,通過模糊支持向量機計算出樣本x對i類的歸屬程度im(x),將樣本x歸屬到im取值最大的一類,有效地提高了不可分區域的分類精度。
Kundu等提出了一種交互式的圖像檢索模型,該模型使用MPEG-7邊緣直方圖描述符(EHD)[6]作為低層特征,通過神經網絡預分類器對圖像庫進行預分類,利用不同的編號表示被分成的各個子集,減少了檢索時的搜索空間,提高了檢索速度。楊棟等[5]提出了貝葉斯通用背景模型并將其應用到圖像語義標注之中,該方法引入受限的對稱Dirichlet分布來描述GMM權重參數的先驗分布,利用Bayes最大后驗概率對高斯混合模型參數集進行估計,具有良好的圖像標注精度。但傳統神經網絡結構復雜,訓練速度慢,難以滿足目前對大數據信息處理的需求。支持向量機雖然訓練速度較快但其作為一種二分類器,對于多分類問題具有一定的局限性。同時目前存在的語義映射方法大多缺乏對特征數據的針對性,魯棒性及泛化能力有待提高。針對上述問題,本文結合語義映射框架,嘗試性地將回聲狀態網絡分類模型應用于圖像語義映射之中。由于回聲狀態網絡以隨機稀疏連接的儲備池作為隱藏層,結構相對簡單,并且只需訓練儲備池至輸出層的權值,訓練過程簡單快速,有效地解決了傳統神經網絡訓練速度慢、結構復雜等問題。同時,為解決圖像特征數據間關系復雜、維數較高的問題[8],引入集成學習思想,對圖像特征按相關性進行劃分,針對劃分后的圖像特征分別構造儲備池形成多個分類器,并對各分類器得到的分類結果進行集成,使得各分類器對特征數據更具針對性,并且能夠提高分類器的泛化能力和魯棒性。
2圖像特征提取
圖像的低層特征主要包括圖像的顏色、紋理、形狀等。本文主要利用圖像的顏色矩、灰度共生矩陣以及Gabor小波變換提取圖像的低層視覺特征。(1)顏色矩[9]能夠很好地描述顏色的分布特征。通常提取顏色分量的一階矩、二階矩和三階矩表示圖像的顏色分布。一階矩表示每個顏色分量的平均強度,二階矩表示待測區域的顏色方差,三階矩表示顏色分量的偏斜度及不對稱性。本文提取圖像R、G、B三種顏色分量的三個低階矩,共9維。(2)灰度共生矩陣[10]是對圖像上保持距離d的兩像素分別具有某灰度的狀況進行統計得到的。假設圖片共有M×N個像素點,從某像素點(x,y)開始,該像素點的灰度級為i,灰度共生矩陣即統計與其方向角為θ、距離為d、灰度級為j的像素點同時出現的概率,假設mnf(x,x)為像素點mn(x,x)對應的灰度級,Count(M)表示M情況出現的次數,由此可將灰度共生矩陣的獲取方法概括為公式。其中,T表示灰度共生矩陣元素個數。本文取通過灰度共生矩陣得到的能量、對比度、相關值以及熵4個特征值分別在0°、45°、90°、135°方向的最大值、最小值、平均值及標準差值作為訓練集,共16維。(3)Gabor小波變換[11]與人類視覺系統中簡單細胞的視覺刺激響應非常相似。在提取目標的局部空間和頻率域信息方面具有良好的特性。Gabor函數是一個用高斯函數調制的復正弦函數,能夠在給定區域內提取局部的頻域特征,本文所用的Gabor濾波器對應的實部如公式(2)所示,虛部如公式(3)所示。本文提取不同方向的Gabor小波變換過后結果的能量均值及標準方差作為特征,共12維。
3.1基本模型回聲狀態網絡(EchoStateNetwork,ESN)由Jaeger于2001年提出,其獨特之處在于將隨機稀疏連接的神經元構成的儲備池作為隱藏層,用以對輸入進行高維的、非線性的表示[13]。ESN是一種新型的遞歸神經網絡,由輸入層、儲備池、輸出層組成,其結構如圖3所示:假設該網絡中輸入層有K個輸入,儲備池有N個內部連接單元,輸出層有L個輸出,儲備池內部單元狀態更新方程如公式(7)所示:其中,outW表示儲備池與輸出單元的連接權值為輸出層到儲備池的連接權值,通過狀態變量計算得到,outf為輸出單元處理函數。
3.2分類模型回聲狀態網絡常用于解決時間序列預測方面的問題,2009年,Alexandre等[7]提出面向靜態模式分類的回聲狀態網絡方法。在此基礎上,彭喜元等[14]提出了隨機子空間多儲備池分類模型,提高了傳統回聲狀態網絡分類模型的泛化能力及分類性能;郭嘉等提出了基于相應簇的回聲狀態網絡靜態分類方法,將儲備池子簇與需分類數據類別數量建立對應關系,能夠更好地滿足對不同數據有針對性的分類需求。分類模型不同于預測模型,各數據間并不存在依賴關系,所以回聲狀態網絡分類模型在訓練某特征數據對應的狀態變量x(n)時保持輸入數據不變,當狀態變量的變化量(i)(i1)||x(n)x(n)||小于閾值時,表示狀態變量趨于穩定,該特征數據對應的狀態變量訓練完成。
4語義映射方法
4.1語義映射框架圖像的語義映射主要是通過分析訓練集中圖像的特征,并通過機器學習的方式將訓練集中的圖像低層特征和語義關鍵詞建立聯系,得到一定的知識或者規則,之后通過這些知識對新圖像進行語義映射,從而獲得新圖像的高層語義描述。整個框架主要包括圖像低層特征提取、語義訓練、樣本圖片語義映射等環節。本研究采取的語義映射框架如圖4所示。
4.2多儲備池回聲狀態網絡語義映射模型集成學習能有效地提高學習器的泛化能力,是目前機器學習領域重要的研究方向之一。本文借鑒集成學習思想,針對不同特征提取算法得到的特征數據之間相對獨立的特點,提出多儲備池回聲狀態網絡分類模型。該模型將提取出的低層圖像特征按類劃分,對不同類型的數據分別構造與其相對應的儲備池,在仿真時將各儲備池的映射結果進行線性融合,提高分類器與特征數據的適應性。其主要結構如圖5所示。本文將37維圖像低層特征按照提取特征的方法劃分為三組,包括根據圖像灰度共生矩陣得到的16維特征,計算顏色矩得到的9維特征以及通過Gabor小波變換得到的12維特征。
5實驗與結果分析
5.1實驗環境實驗在Windows764位操作系統下進行,測試軟件為Matlab2010b。硬件環境:CPU為Intel酷睿22.2GHz雙核處理器,內存為4GB。
5.2圖像語義映射實驗實驗選取Corel圖片庫[18]中的汽車(Bus)、恐龍(Dinosaur)、花(Flower)、馬(Horse)、山川(Mountain)以及食物(Food)各100張圖片,共600張圖片作為圖片庫,每類隨機抽出其中的50張作為訓練集,另外50張作為測試集。在實驗中,儲備池處理單元數N均為40,儲備池內連接權值W均采用隨機生成的方式。BP神經網絡采用一層隱藏層,隱藏層中包含90個神經元,訓練精度目標為10–10,為確保實驗數據的準確性,全部采取交叉驗證的方式進行。為了驗證本文的特征提取算法在語義映射中的效果,首先對比了在回聲狀態網絡模型下,分別以灰度共生矩陣特征(Glcm),顏色矩特征(Color_Moment),Gabor小波特征(Gabor)為特征數據時的分類準確度。不同數據特征在回聲狀態網絡分類模型中的映射錯誤率如圖8所示。從圖8看出,不同類型的圖像特征在不同種類圖像的語義映射中表現各有優劣,Mountain類和Food類圖片的映射錯誤率較高。本文將6類圖片的映射錯誤率按三種特征分別計算平均值,得到每一類特征的整體錯誤率All,從整體映射錯誤率All來看,通過Gabor小波變換得到的圖像特征具有較優的映射效果,但單一的圖像特征得到的語義映射效果不夠理想。圖9顯示了特征融合后各分類器的映射錯誤率,MESN對應多儲備池回聲狀態網絡語義映射模型,ESN對應單儲備池回聲狀態網絡語義映射模型,BPNN對應BP神經網絡語義映射模型。(1)多儲備池回聲狀態網絡模型具有最低的語義映射錯誤率,相對于傳統回聲狀態網絡及BP神經網絡,平均錯誤率分別相對下降了19.28%和31.64%。具體計算方法是。(2)對比圖9中MESN、ESN以及圖8中的數據可以看出,多儲備池回聲狀態網絡具有較強的泛化能力,能夠有效提高語義映射精度。(3)特征融合后的分類效果明顯優于單一特征的分類效果。為了更直觀地顯示映射得到的語義信息與目標語義之間的相似程度,在這里定義樣本n與第q類目標語義的相似度程度(q)Sim(n)。通過圖10可以看出,BP神經網絡模型以及單儲備池回聲狀態網絡模型分別在返回11張、13張圖片時出現錯誤樣本,而多儲備池回聲狀態網絡在返回24張圖片時出現錯誤樣本,且在各返回圖片數下均保持最高的準確率。因此,通過多儲備池回聲狀態網絡模型得到的語義信息更具魯棒性。當返回50張圖片時,ESN及BPNN對應的查準率分別為90%和87.67%,而本文提出的MESN模型對應的查準率為91.67%,查準率分別相對提高1.86%及4.56%?;芈暊顟B網絡語義映射模型在具有較高映射精度的情況下同時具有較快的訓練速度,在實驗中MESN的平均訓練時間僅為1.53s,而BP神經網絡的平均訓練時間為48.24s。
5結語
本文將多儲備池回聲狀態網絡分類模型應用于圖像語義映射中,實驗提取圖像灰度共生矩陣的能量、對比度、相關值、熵4個標量,RGB顏色空間的顏色矩以及Gabor小波變換后圖像的均值及方差作為圖像特征,分類器采用多儲備池回聲狀態網絡分類模型,并對儲備池中狀態變量的調整方式進行優化。實驗結果表明本文提出的語義映射方法是可行的、有效的。下一步工作將在大型圖像數據庫中進行實驗,并提取更具區分力的圖像低層特征,擴展特征向量。與此同時進一步優化回聲狀態網絡儲備池的結構,使其對特征數據更具針對性及適應性。
作者:王華秋 王斌 聶珍 單位:重慶理工大學計算機科學與工程學院 重慶理工大學圖書館