本站小編為你精心準備了遺傳神經(jīng)網(wǎng)絡的改進語音識別系統(tǒng)參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
為了解決語音信號中幀與幀之間的重疊,提高語音信號的自適應能力,本文提出基于隱馬爾可夫(HMM)與遺傳算法神經(jīng)網(wǎng)絡改進的語音識別系統(tǒng).該改進方法主要利用小波神經(jīng)網(wǎng)絡對Mel頻率倒譜系數(shù)(MFCC)進行訓練,然后利用HMM對語音信號進行時序建模,計算出語音對HMM的輸出概率的評分,結(jié)果作為遺傳神經(jīng)網(wǎng)絡的輸入,即得語音的分類識別信息.實驗結(jié)果表明,改進的語音識別系統(tǒng)比單純的HMM有更好的噪聲魯棒性,提高了語音識別系統(tǒng)的性能.
關鍵詞:
隱馬爾可夫模型;神經(jīng)網(wǎng)絡;語音識別;遺傳算法
隨著語音識別技術(shù)的發(fā)展,人們對語音識別的技術(shù)要求越來越高,隱形馬可夫模型(HiddenMarkovModel,簡稱HMM),在語音識別中已經(jīng)廣泛得到應用.但是,其自適應能力差,抗噪性也不是十分理想,僅靠單一的HMM進行語音識別存在諸多困難[1,2].而現(xiàn)在廣泛應用的人工神經(jīng)網(wǎng)絡(ArtificalNeuralNet-work,簡稱ANN)[3,4],在自適應、抗噪性方面具有良好的特性,克服了HMM中存在的不足.反向傳播神經(jīng)網(wǎng)絡(BP)雖然已經(jīng)是神經(jīng)網(wǎng)絡中前向神經(jīng)網(wǎng)絡的核心部分,并且得到了廣泛的應用[5].然而,BP神經(jīng)網(wǎng)絡也存在諸多缺點,比如學習收斂速度太慢,使其只能解決小規(guī)模的問題,也不能保證收斂到全局最小點,使得訓練結(jié)果達不到全局最優(yōu)性.遺傳算法優(yōu)化后的反向傳播神經(jīng)網(wǎng)絡(GA-BP)[6-9]的混合模型語音識別方法,有效地保證訓練結(jié)果的全局最優(yōu)性,在語音識別的速度方面也有大幅度的提高,但在噪聲環(huán)境下,遺傳算法優(yōu)化后的反響傳播神經(jīng)網(wǎng)絡噪聲魯棒性并不是十分理想,因此也對語音識別系統(tǒng)的性能帶來了影響[10].本文運用小波神經(jīng)網(wǎng)絡結(jié)構(gòu)簡單、收斂速度快的優(yōu)點,對MFCC系數(shù)進行訓練,從而得到新的MFCC系數(shù),再進行特征提取后作為遺傳算法優(yōu)化后的輸入.然后利用優(yōu)化后的遺傳神經(jīng)網(wǎng)絡獲得語音的分類識別信息進行語音識別.實驗結(jié)果表明,基于HMM與遺傳神經(jīng)網(wǎng)絡改進的語音識別系統(tǒng)進一步提高了語音識別系統(tǒng)的自適應性和噪聲魯棒性.
1隱馬爾可夫模型語音識別原理
隱馬爾可夫模型是一種利用相關參數(shù)來表示,并用于描述隨機過程中統(tǒng)計特性的概率模型[11].它的本質(zhì)是一種基于統(tǒng)計分布一致性的聚類分析,每個隱含的狀態(tài)就是一個聚類,對HMM進行訓練的過程就是尋找每個聚類之間的相關聯(lián)的過程.它由兩部分組成:一個是隱含的馬爾可夫鏈,即為隱含層;另一個是實際的觀測量,即為觀測層.HMM基于參數(shù)統(tǒng)計理論,利用概率密度函數(shù)計算出語音參數(shù)對模型的輸出概率,找到最佳狀態(tài)序列以后,用最大后驗概率為準則進行識別.語音參數(shù)和隱馬爾可夫模型關系如下圖圖1所示.
2基于遺傳算法的神經(jīng)網(wǎng)絡優(yōu)化算法
BP神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡中應用最為廣泛的算法,但在廣泛運用的同時,也逐漸出現(xiàn)一些不足之處,比如收斂速度慢、不能保證收斂到全局最小點等等.另外,網(wǎng)絡結(jié)構(gòu),初始連接權(quán)值與閾值的選取對網(wǎng)絡訓練帶來的影響也非常大,但是又無法準確獲得.針對這些特點可以采用遺傳算法對神經(jīng)網(wǎng)絡進行優(yōu)化.
2.1傳統(tǒng)遺傳算法傳統(tǒng)遺傳算法實現(xiàn)步驟如下:1)隨機產(chǎn)生一定數(shù)量的初始個體,這些隨機產(chǎn)生的初始個體總體數(shù)目組成一個種群.2)用評價函數(shù)來評價每個個體的優(yōu)劣,每個個體的適應程度(稱為適應度)作為遺傳操作的依據(jù).3)從現(xiàn)有的種群中選取一定的個體作為新一代的個體,個體適應程度越高,被選擇的機會越大.4)對于新生成的種群進行交叉、交異操作.
2.2用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡權(quán)值的學習過程遺傳算法(GeneticAlgorithm,GA)是模擬著名天文學家達爾文的遺傳選擇和生物進化的計算模型,具有很強的宏觀搜索能力和良好的全局優(yōu)化性能[12,13].因此采取遺傳算法與BP神經(jīng)網(wǎng)路相結(jié)合,訓練時先用遺傳算法對神經(jīng)網(wǎng)絡的權(quán)值進行尋找,將搜索范圍縮小后,再利用BP網(wǎng)絡來進行精確求解,可以達到全局尋找和快速高效的目的,并且避免局部最小問題.算法結(jié)束后,由群體中最優(yōu)個體解碼即可得到優(yōu)化后的網(wǎng)絡連接權(quán)值系數(shù).
3基于HMM與遺傳神經(jīng)網(wǎng)絡改進的語音識別系統(tǒng)設計
現(xiàn)有的語音識別系統(tǒng)只能處理平穩(wěn)信號,而人說話的語言頻率不一樣使得語音信號是一個準穩(wěn)態(tài)信號,這時就要把語音劃分成若干幀以達到信號穩(wěn)定的要求.但這存在的不足之處就是并沒有考慮到語音信號的動態(tài)特性,根據(jù)神經(jīng)網(wǎng)絡在非線性映射方面有比較好的效果,同時神經(jīng)網(wǎng)絡也具有小波多分辨分析的性能,從而可以從樣本中提取出來新的特征信息.本文采用基于HMM與遺傳神經(jīng)網(wǎng)絡改進的語音識別系統(tǒng),對輸入語音信號進行預處理后,利用小波神經(jīng)網(wǎng)絡訓練MFCC系數(shù),然后根據(jù)HMM參數(shù)庫進行Viterbi譯碼,歸一化處理以后作為優(yōu)化后遺傳神經(jīng)網(wǎng)絡的輸入,即將HMM中全部狀態(tài)累計概率作為優(yōu)化后的遺傳神經(jīng)網(wǎng)絡特征輸入,再根據(jù)神經(jīng)網(wǎng)絡的非線性映射能力對語音信號識別出所需要的結(jié)果.改進后的語音識別系統(tǒng)流程圖如圖3所示.
4仿真實驗及結(jié)果分析
實驗語音文件從十個人中采集,一個文件有中文數(shù)字1-9組成.每個人錄了四次,其中三個用于培訓和一個用于測試.記錄格式的采樣頻率8kHz,單通道16位采樣點,采取的幀長為256點.記錄后,點檢測去除無聲段,其次是預加重.然后,語音段劃分為20個幀,從每一幀中提取的特征參數(shù).一個幀有10個特征.因此,每一個數(shù)字都會有200特點.實驗訓練集采取100個不同人員的凈語音樣本;在不同的信噪比下取50個不同人員的語音信息;在不同的環(huán)境下,采用的語音數(shù)據(jù)的信噪比分別為40、35、30、25、20、15、5和0dB.實驗時,為了驗證改進的語音識別系統(tǒng)的有效性,在Matlab7.0上分別對HMM,HMM與優(yōu)化后的遺傳神經(jīng)網(wǎng)絡和本文改進后的混合語音識別模型算法做對比.實驗分為兩次實驗過程,第一次在加性高斯噪聲下;第二次在學校餐廳學生就餐時人聲為噪聲背景.實驗分別得出語音在加性高斯噪聲下識別率如表1和圖4;在學校餐廳時實驗結(jié)果如表2和圖5所示.由表1和表2中的實驗數(shù)據(jù)可以看出,改進以后的混合算法相比單一的HMM和優(yōu)化的遺傳神經(jīng)網(wǎng)絡相比具有更好的識別效果,尤其對那些容易混淆的詞語識別率也有所提高.對于識別系統(tǒng)的信噪魯棒性方面也有了明顯的改變,提高了語音識別系統(tǒng)的自適應能力.神經(jīng)網(wǎng)絡的收斂速度是衡量語音識別的一個重要標準,因此遺傳神經(jīng)優(yōu)化算法與BP算法收斂速度作了如圖6、圖7的比較,實驗結(jié)果表明,優(yōu)化算法收斂速度得到明顯改善.
5結(jié)論
本文提出了基于隱馬爾可夫HMM與遺傳算法的神經(jīng)網(wǎng)絡改進的語音識別系統(tǒng),在隱馬爾可夫模型與遺傳網(wǎng)絡算法優(yōu)化的基礎上,引入小波神經(jīng)網(wǎng)絡訓練MFCC系數(shù),充分利用了隱馬爾可夫模型強大的時間建模能力與遺傳算法優(yōu)化后的收斂速度快、分類識別能力強的優(yōu)點.小波神經(jīng)網(wǎng)絡訓練出的MFCC新系數(shù)應用到優(yōu)化后的神經(jīng)網(wǎng)絡具有更高的識別率,提高了識別系統(tǒng)的自適應能力.
參考文獻
1呂軍,曹效英,徐寶國.基于語音識別的漢語發(fā)音自動評分系統(tǒng)的設計與實現(xiàn).計算機工程與設計,2007,28(5):1232–1235.
2郭超,張雪英,劉曉峰.支持向量機在低信噪比語音識別中的應用.計算機工程與應用,2013,49(5):213–215.
3SemanN,BakarZA,BakarNA.TheoptimizationofArtificialNeuralNetworksconnectionweightsusinggeneticalgorithmsforisolatedspokenMalayparliamentaryspeeches.2010InternationalConferenceonComputerandInformationApplication(ICCIA).IEEE.2010.162–166.
4LanML,PanST,LaiCC.Usinggeneticalgorithmtoimprovetheperformanceofspeechrecognitionbasedonartificialneuralnetwork.FirstInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’06).IEEE.2006,2.527–530.
5王曉東,薛宏智,馬盈倉.基于自適應遺傳算法的神經(jīng)網(wǎng)絡字符識別.西安工程大學學報,2008,22(2):210–213.
6鐘林,劉潤生.新神經(jīng)網(wǎng)絡結(jié)構(gòu)及其在數(shù)碼語音識別中的應用.清華大學學報(自然科學版),2000,40(3):104–108.
7包亞萍,鄭駿,武曉光.基于HMM和遺傳神經(jīng)網(wǎng)絡的語音識別系統(tǒng).計算機工程與科學,2011,33(4):139–144.
8馮宏偉,薛蕾.基于HMM和新型前饋型神經(jīng)網(wǎng)絡的語音識別研究.計算機工程與設計,2010,(24):5324–5327.
9肖勇,覃愛娜.改進的HMM和小波神經(jīng)網(wǎng)絡的抗噪語音識別.計算機工程與應用,2010,(22):162–164.
10PanST,WuCH,LaiCC.Theapplicationofimprovedgeneticalgorithmonthetrainingofneuralnetworkforspeechrecognition.SecondInternationalConferenceonInnovativeComputing,InformationandControl(ICICIC’07).IEEE,2007.168–168.
11AggarwalRK,DaveM.ApplicationofgeneticallyoptimizedneuralnetworksforHindispeechrecognitionsystem.2011WorldCongressonInformationandCommunicationTechnologies(WICT).IEEE.2011.512–517.
12AnM,YuZ,GuoJ,etal.TheteachingexperimentofspeechrecognitionbasedonHMM.The26thChineseControlandDecisionConference(2014CCDC).IEEE.2014.2416–2420.
13SilvaWLS,deOliveiraSerraGL.Anovelintelligentsystemforspeechrecognition.InternationalJointConferenceonNeuralNetworks(IJCNN).IEEE.2014.3599–3604.
作者:吳延占 單位:西安工程大學 電子信息學院