在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網(wǎng) 資料文庫 文本情感分類中基因遺傳算法的應用范文

文本情感分類中基因遺傳算法的應用范文

本站小編為你精心準備了文本情感分類中基因遺傳算法的應用參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

文本情感分類中基因遺傳算法的應用

摘要:本文以微博文本為主要實驗對象,提出適合卷積神經(jīng)網(wǎng)絡進行自我優(yōu)化的編碼方式,分別將每一層看做是一個染色體,將每一層中的參數(shù)看做是一個基因片段,采用混合雙重非數(shù)值編碼的方式編碼每個CNN框架,設計出適合于CNN網(wǎng)絡的選擇、交叉和變異的算法,并且把基因遺傳算法(GA)和與卷積神經(jīng)網(wǎng)絡相結合,提出了基于情感分析算法的遺傳算法(GA-CNN).通過對傳統(tǒng)算法與GA-CNN的實驗與對比分析,良好地展示了自我優(yōu)化性.

關鍵詞:基因算法;情感分析;深度學習;自我進化

1引言

隨著網(wǎng)絡技術的進步和社會應用的普及,網(wǎng)頁的交互信息越來越多的被企業(yè)、政府所重視.基于網(wǎng)頁的信息獲取、挖掘、分析也被逐漸提升到了國家安全的高度.網(wǎng)頁信息的交互包含瀏覽歷史記錄、跳轉(zhuǎn)路徑、的信息、微博、視頻、語音以及注冊的個人信息、賬號等等,他們包含每個人的部分或者全部核心信息,如個人的工作、情感、生活、經(jīng)濟、習慣和信仰等等.對網(wǎng)頁數(shù)據(jù)的挖掘與分析將有助于個人乃至國家的發(fā)展.本文主要以網(wǎng)頁數(shù)據(jù)中的微博為主要例題,對其中所表露出來的情感進行分析研究,并對算法自我優(yōu)化的可行性進行分析探討.情感分析(SentimentAnalysis,SA)又稱為傾向性分析和意見挖掘,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,其中情感分析還可以細分為情感極性(傾向)分析,情感程度分析和主客觀分析等[1].情感極性分析的目的是對自然語言中多包涵的正向情緒、負向情緒和中立情緒進行判別.大多數(shù)應用場景中,只分為兩類.例如對于“喜歡”和“討厭”這兩個詞,表達的就是兩種相反的情感.情感分析在建立完善互聯(lián)網(wǎng)的輿情監(jiān)控系統(tǒng),對異常或突發(fā)事情的檢測以及心理學、社會學、金融預測等領域中都有廣泛應用.目前國內(nèi)外對于微博等短文本的情感挖掘分析已經(jīng)做出了很多研究[2].常用的方法如樸素貝葉斯[3],邏輯回歸[4]、K最近鄰分類KNN算法(k-NearestNeighbor)[5]、支持向量機(SupportVectorMachine,SVM)[6,7]和卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetwork,CNN)[8]等,都在不同的目標對象的情況有良好的表現(xiàn).但是對于不同的任務和不同的數(shù)據(jù)源,如中文微博和英文微博,對文字微博和表情微博等的分析仍有較大差異[9,10].針對不同的任務,人們會人工嘗試不同的算法并通過調(diào)整優(yōu)化來實現(xiàn)最佳匹配和提升效率.對于參數(shù)結構眾多,探索空間巨大的情況,這種方式不僅時間效率較低,而且探索空間局限,優(yōu)化效果不明顯.因此能夠讓算法自我進化,并且在全局空間內(nèi)進行自我優(yōu)化,不僅能夠節(jié)省人力,還能夠提升算法對不同任務的適應性,在現(xiàn)實工作中具有較強的現(xiàn)實意義[11].本文主要以中文微博數(shù)據(jù)為例,以情感分析為主要實驗對象,結合遺傳算法(GeneticAlgorithm,GA),實現(xiàn)對情感分析算法的自我優(yōu)化,提出了以卷積神經(jīng)網(wǎng)絡為對象的遺傳進化算法(GA-CNN),并通過實驗,來模擬實現(xiàn)對中文情感分析算法的自我進化過程和結果.

2傳統(tǒng)方法情感分析實驗

微博以不超過140字為一個表達方式,具備詞語種類豐富、語句簡短、主題發(fā)散及創(chuàng)新詞語多等特點,相對于長文本而言,在情感分析的問題上面臨的問題和困難更多[12].文本情感分析過程一般包括文本預處理、情感特征提取和情感分類等步驟.文本預處理指對文本進行分詞,對詞性進行標注,以及停用詞的成立等操作;情感特征的提取是指按照一定的規(guī)則,把具有明顯傾向性的單元要素從微博文本進行抽取的過程;情感分類是利用抽取出來的情感特征對文本進行區(qū)分,對主觀性文本極性和強度進行分類.中文微博情感分類大致上包括:基于情感詞典的分類方法和基于機器學習的分類方法兩類[9].

2.1實驗環(huán)境本文中的所有實驗均在如表1所示的實驗環(huán)境中完成.

2.2數(shù)據(jù)集的選擇與處理試驗數(shù)據(jù)來源于新浪微博的數(shù)據(jù)集.該數(shù)據(jù)集包含1.6萬余語句,其中1.2萬來自于PC端,0.4萬條來自移動端.將來自PC端的數(shù)據(jù)進行分類,按照心理學對情感的歸類,將“happiness”、“l(fā)ike”歸為正向情感(“pos”);將“anger”、“disgust”,“fear”歸為負向情感(“neg”);將“surprise”、“none”歸為中性情感(“none”).并通過約20人進行獨立認證,采用最高的歸類,進行劃分.同時將來自移動端的數(shù)據(jù)被標記直接標注為“正向情感”、“負向情感”和“無情感”3個類別.數(shù)據(jù)的標記過程仍然采用原先匯總人員進行獨立標注,標注中忽略了表情符號所表達的情感,僅對中文自然語言所表達出的情感進行了標記,選取其中比例最高的標注作為單條語句的情感類型.情感類型分為三類,正向情感、負向情感和中性情感,其中正向情感語句4699條,負向情感語句4891條,中性情感語句6548條.采用80%進行訓練,20%進行測驗.

2.3實驗結果對比分析上述傳統(tǒng)方法和基礎CNN方法在實驗環(huán)境中的測試結果如表2所示.從試驗可知,對于傳統(tǒng)分類算法而言,SVM的性能較高,在該數(shù)據(jù)情況下,樸素貝葉斯算法的精確度較低,其次是邏輯回歸以及線性SVM算法.對于深度學習的CNN網(wǎng)絡,在這個樣本集中,表現(xiàn)出了較好的分類效果.該試驗中的CNN分別進行了三類試驗,分別是基于預訓練詞向量的CNN-static、隨機編碼的CNN-rand和經(jīng)過調(diào)參的CNN-non-static.并分別對CNN進行了人為調(diào)整參數(shù).結果顯示CNN-non-static比最好的CNN-rand高出0.009,達到了53.5%.但相對于傳統(tǒng)的情感分析分類算法,CNN-none-static比SVM-RBF-Grid-Search,精確度效果卻并沒有提升,甚至還低0.05%.進一步分析說明對于該CNN的網(wǎng)絡結構和參數(shù)的設定并沒有達到CNN網(wǎng)絡的最大性能,同樣對于SVM的算法也并沒有達到其最大的精確度.那么對于CNN這樣網(wǎng)絡結構復雜,層次可以無限加深,探索空間巨大的情況,人為調(diào)參僅能實現(xiàn)局部性搜索優(yōu)化,無法實現(xiàn)最優(yōu)或近似最優(yōu)的效果優(yōu)化.而對于網(wǎng)格搜索而言,它是一種枚舉型收索,它的特點是耗時長,全局性差.對于深度學習的自我探索,谷歌在2017年進行了研究,BarretZoph[13]等人于2017年初嘗試了一種基于大型服務陣列上的自我遍歷探索優(yōu)化的嘗試,實驗結果完成了基于RNN的圖像識別的自我增強優(yōu)化.但這樣的自我優(yōu)化需要較大的資源,對于普通算法的或者資源有限的前提下,需要尋找一個有效的算法進行高效的全局性的自動調(diào)整優(yōu)化.結合BarretZoph等人的探索,本文提出了基于卷積神經(jīng)網(wǎng)絡的遺傳進化算法(GA-CNN).

3基于基因遺傳算法的自我優(yōu)化算法

本文中,采用CNN探索模型進行基于遺傳算法的優(yōu)化,主要討論該模型是否能夠通過模擬進化完成結構性和參數(shù)性的探索,以達到根據(jù)不同任務和數(shù)據(jù)源進行自我結構和參數(shù)的變更,使性能達到最優(yōu).

3.1基因遺傳算法相關理論遺傳算法GA是1975年由美國Michigan大學的Holland教授在其專著《自然界和人工系統(tǒng)的適用性》中首先提出的.遺傳算法,也稱進化算法,是受達爾文的進化論的啟發(fā),借鑒生物進化過程而提出的一種啟發(fā)式搜索算法.借鑒生物進化論,遺傳算法將要解決的問題模擬成一個生物進化的過程,通過復制、交叉、突變等操作產(chǎn)生下一代的解,并逐步淘汰掉適應度函數(shù)值低的解,增加適應度函數(shù)值高的解.這樣進化N代后就很有可能會進化出適應度函數(shù)值很高的個體[14,15].

3.2GA-CNN算法的設計CNN網(wǎng)絡結構中,可以討論的參數(shù)和結構很多.在GA-CNN的算法探索中,將每一層網(wǎng)絡結構看作是一個染色體.GA-CNN算法的系統(tǒng)架構如圖1所示;其整體流程如算法1.算法1GA-CNN算法Begin步驟1對數(shù)據(jù)進行規(guī)范處理并分為訓練集、評價集和測試集;步驟2初始化CNN框架結構種群,預先設定最大迭代次數(shù)G,當前種群代數(shù)g=1;步驟3對CNN種群中的每個框架結構進行學習訓練;步驟4用評價集對訓練的CNN模型,進行評估,獲得CNN框架結構種群所對應的適應度;步驟5采用輪盤賭法生成交配目標;步驟6對交配目標進行交叉操作,并進行訓練評估適應度;步驟7利用變異操作,對交叉結果進行變異,并進行訓練評估適應度;步驟8判斷新產(chǎn)生的結果是否優(yōu)于交配目標,更新CNN結構種群,更新對應的適應度;步驟9如果g<G且不滿足收斂條件,g=g+1,轉(zhuǎn)到步驟5,否則轉(zhuǎn)到步驟10;步驟10輸出精英個體模型作為最終的分類模型.74算法2GA-CNN算法交叉變異邏輯Begin步驟1采用隨機法在CNN種群中選取基模型S1;步驟2在S1周圍局部選取,距離為1的交配模型S2;步驟3交叉產(chǎn)生新的模型隊列,對產(chǎn)生的新模型進行訓練學習,評估其適應度;步驟4比較篩選適應度最高的模型S3;步驟5判斷新產(chǎn)生的模型S3是否優(yōu)于基模型S1,如果優(yōu)于S1,替換S1;如果不優(yōu)于S1,舍棄,轉(zhuǎn)到步驟1;步驟6判斷是否優(yōu)于交配模型S2;優(yōu)于交配模型S2,轉(zhuǎn)到步驟7;不優(yōu)于交配模型S2,轉(zhuǎn)到步驟8;步驟7替換S2,接著S2變異,轉(zhuǎn)到步驟9;步驟8在S1周圍選取一個適應度最差的進行變異;步驟9更新種群和適應度評估.End.GA-CNN算法與傳統(tǒng)CNN測試后的結果對比如表3所示.綜上所述,可以看出GA-CNN算法,經(jīng)過進化,進行有效的自我調(diào)優(yōu),調(diào)整了自己的結構和模型參數(shù),提升了模型準確性,從52.68%上升到了77.08%.該進化在85次時達到了收斂,取得了一個近似最優(yōu)解.

4結論

實驗分析,GA-CNN算法有效地解決了人為調(diào)參數(shù)的局限性,對分布空間廣,探索空間大的CNN模型架構以及參數(shù)能夠有效的探索和自動優(yōu)化,在探索時間和空間上都相對人為調(diào)參有較大提升.相對于枚舉法而言具有較好的收斂性.但該算法也存在一定的問題和思考:由于資源空間有限,對基因和染色體種類的模擬具有局限性,大量參數(shù)和變數(shù)引入可能帶來較大的影響.同時對于染色體的編碼由于種類較少,類似于二進制編碼.初始化的種群結構不同,可能帶來的進化時間成本和結構都有所不同.最后的結果可能在最大迭代次數(shù)G完成時,仍只能得到一個近似最優(yōu)解,而這個近似最優(yōu)解可能存在差異.

參考文獻:

[1]蔣延華.風景油畫創(chuàng)作的情感分析[J].美術教育研究,2012,2012:25.

[2]王文華,朱艷輝,徐葉強,等.基于SVM的產(chǎn)品評論屬性特征的情感傾向分析[J].湖南工業(yè)大學學報,2012,26:76.

[3]陳紅玉.數(shù)據(jù)挖掘中貝葉斯分類算法的研究[J].光盤技術,2009,2009:57.

[4]周志華.機器學習[M].北京:清華大學出版社,2016.

[5]賈可亮,樊孝忠,許進忠.基于KNN的漢語問句分類[J].微電子學與計算機,2008,2008:156.

[6]馬波.支持向量機多類分類算法的分析與設計[D].揚州:揚州大學,2008.

[7]饒剛.支持向量機(SVM)算法的進一步研究[D].重慶:重慶大學,2012.

[8]張建明,詹智財,成科揚,等.深度學習的研究與發(fā)展[J].江蘇大學學報:自然科學版,2015,36:191.

[9]任小燕.中文情感分析綜述[J].科技信息,2011,31:202.

[10]周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計算機應用與軟件,2013,30:161.

[12]王巖.基于共現(xiàn)鏈的微博情感分析技術的研究與實現(xiàn)[D].北京:國防科學技術大學,2011.

[14]王曉天,邊思宇.基于遺傳算法和神經(jīng)網(wǎng)絡的PID參數(shù)自整定[J].吉林大學學報:理學版,2018,56:953.

[15]陳龍.基于遺傳算法的約束性多TSP問題及其應用[J].重慶郵電學院學報:自然科學版,2000:67.

作者:彭一明 邢承杰 卞晶 陳光 王夢淑 王雪琴 單位:北京大學計算中心

主站蜘蛛池模板: 亚洲福利网址 | 久久综合免费视频 | 亚洲福利视频网址 | 久久99蜜桃精品久久久久小说 | 激情丁香网 | 婷婷丁香五月中文字幕 | 色播六月 | 国产乱视频网站 | 在线高清一级欧美精品 | 免费看片亚洲 | 男生天堂 | 久久波多野结衣 | 亚洲开心激情网 | 亚洲欧美久久精品一区 | 一级片在线免费观看 | 国产中文久久精品 | 亚洲免费影视 | 伊人国产在线 | 色5月婷婷| 国产精品久久免费视频 | 婷婷丁香五| 日本a免费 | 伊人亚洲综合青草青草久热 | 亚洲精品视频免费看 | 欧美日韩在线成人免费 | 五月亭亭免费高清在线 | 羞羞的视频免费观看 | 午夜日韩精品 | 国产精品视频免费视频 | 日本在线不卡一区二区 | 偷自拍第一页 | 五月天激情婷婷大综合 | 亚洲片在线观看 | 一区二区精品久久 | 日韩成人免费在线 | 99er这里只有精品 | 久久久亚洲欧洲日产国码二区 | 香蕉午夜 | 在线免费观看色视频 | 亚洲精品精品 | 欧美日韩中文一区二区三区 |