在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網(wǎng) 資料文庫 SVM的文本情感極性分類研究范文

SVM的文本情感極性分類研究范文

本站小編為你精心準備了SVM的文本情感極性分類研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

SVM的文本情感極性分類研究

《廣東工業(yè)大學(xué)學(xué)報》2014年第二期

1文本情感特征

本文基于svm文本情感極性分類任務(wù)分為3個步驟:1)情感詞典構(gòu)建:構(gòu)建一個較完備的能識別情感特征詞的情感詞典;2)情感特征選擇及特征向量加權(quán):從文本中提取情感特征組成特征向量,計算特征向量中情感特征的文本情感權(quán)重;3)情感分類:針對步驟2的加權(quán)后的情感特征向量,用SVM的機器學(xué)習(xí)方法把文本分成正向情感極性和負向情感極性兩類.

1.1情感詞典的構(gòu)建情感分析需要識別情感詞特征,但由于目前中文情感分析領(lǐng)域的研究并沒有一個完備的的情感詞典庫.因此,本文通過以下幾個方面完成情感詞典的構(gòu)建:1)利用《漢語褒貶義詞語用法詞典》,該詞典共收詞條1015個,對其詞語進行情感極性分類擴展情感詞典.2)利用知網(wǎng)的極性情感詞詞典,臺灣大學(xué)整理并的中文通用情感詞典(NTUSD)以及大連理工大學(xué)信息檢索研究室的情感詞匯本體詞典,對其中的詞語通過人工選擇進行極性分類和整理,并利用《同義詞詞林》對情感詞進行擴展.3)利用基準情感詞,通過大量的語料集對未知情感詞采用PMI算法進行情感極性分類擴展情感詞典,實驗采用人工選取的方式選擇情感語義非常明顯的基準情感詞,并利用式(1)設(shè)定閥值進行計算歸類.4)在情感詞匯本體詞典極值標注的基礎(chǔ)上,人工標記未賦予極值的情感詞語,這種做法帶來了一定的誤差.

1.2情感特征選擇情感分析特征選取,本文結(jié)合構(gòu)建的情感詞典利用卡方統(tǒng)計量選擇與情感特征相關(guān)的詞語,剔除與情感特征無關(guān)的詞語.

1.2.1卡方統(tǒng)計量技術(shù)本文選擇卡方統(tǒng)計量(chisquarestatistic,CHI)技術(shù)來建立分類模型的情感特征詞向量,計算公式如式(2)和式(3)所示.利用式(2)和式(3),本文模型可以統(tǒng)計出某一情感類別每個詞的卡方統(tǒng)計量,對每個類別設(shè)定一個情感特征量閾值,使特征向量更具區(qū)分度,并合并情感類別中的情感特征詞組合作為本文選擇的情感特征向量.

1.2.2情感特征選擇情感特征的選擇除了詞本身的詞特征之外,還需包括情感詞的情感特征,單句的情感特征以及句間情感特征.本文模型選取的情感特征如表1所示。

2文本情感極性分類

2.1情感特征加權(quán)

2.1.1單句的情感極值處理本文以逗號為分隔對單句進行情感分析以及情感極值加權(quán),分為以下幾種情形:1)若出現(xiàn)情感詞,比如“開心”,“失望”,“搞笑”等,本文從情感極值表中找出相應(yīng)的極值,對于正向情感詞取正極值,負向情感詞取負極值,而對于情感極性不明確的,則取其所有情感極值的期望值.2)若出現(xiàn)否定詞,比如“不”,“未”等,模型視它的出現(xiàn)是對后續(xù)情感極性的一種否定,對于否定詞之后緊跟著情感詞的情況,對情感極值取反并減少情感詞對應(yīng)的情感數(shù)目增量,增加反向的情感數(shù)目增量.3)若出現(xiàn)反問副詞,比如“憑什么”,“就算”,“怎么能”等,模型視它的出現(xiàn)是為了加強負向的情感極值,對于這樣的情況,提高負向情感極值.4)若出現(xiàn)一個感嘆號或多個感嘆號,模型視它的出現(xiàn)是為了加強相應(yīng)的情感極值,因此分析這樣的句子,提高句子中的相應(yīng)的情感極值,提高幅度視感嘆號出現(xiàn)的連續(xù)程度而定.5)若出現(xiàn)程度級別詞,比如“極其”,“略為”“有些”等,模型視它的出現(xiàn)是為了增強或減弱情感極值,對于程度詞修飾情感詞的情況,視程度詞級別增強或減弱情感極值.6)若句子是首句或尾句,且出現(xiàn)人稱代詞或主張詞語,比如“認為”“發(fā)現(xiàn)”等,模型視其是影響整體情感極值的重要因子,對于這種句子,加大其相應(yīng)的情感極值.

2.1.2整句的情感極值處理本文以句號或感嘆號為分割點對整句進行情感分析以及情感極值加權(quán),分為以下幾種情形:1)若出現(xiàn)遞進關(guān)系連詞,比如“不但,而且”等,模型視第二復(fù)句比第一復(fù)句所表達的情感要更為強烈,因此在分析這種句式的復(fù)句時,提高第二復(fù)句中情感詞的情感極值并在原來的基礎(chǔ)上增加一個對應(yīng)的情感數(shù)目增量.2)若出現(xiàn)轉(zhuǎn)折關(guān)系連詞,比如“然而”,“但是”等,模型視轉(zhuǎn)折連詞前后所要表達的情感極性是相反的,連詞之后的語句所表達的情感才是真正想要表達的情感.因此在分析這種句式的復(fù)句時,提高連詞之后的復(fù)句的情感極值并增加兩個對應(yīng)的情感數(shù)目增量,降低連詞之前復(fù)句的情感極值并減少兩個對應(yīng)的情感數(shù)目增量.3)若出現(xiàn)因果關(guān)系連詞,比如“由于”,“于是”,“以致”“因此”等,模型視連詞出現(xiàn)的復(fù)句才是重點要表達的情感極性,連詞之前出現(xiàn)的情感只是鋪墊,因此在處理這類句式時,提高連詞復(fù)句的情感極值并增加一個對應(yīng)的情感數(shù)目增量.4)若出現(xiàn)讓步連詞,比如“即使”,“盡管”,“就算”等,模型視讓步連詞出現(xiàn)的復(fù)句所表達的情感極性應(yīng)該是為了增強后一個復(fù)句的情感極性,因此對于整體的情感極性來說,在分析這種句式的復(fù)句時,降低讓步連詞復(fù)句的情感極性并減少一個對應(yīng)的情感數(shù)目增量.2.1.3改進的情感TFIDF函數(shù)TFIDF函數(shù)常用于特征加權(quán),它表征一個特征的重要程度.但是對于情感分類而言,情感詞在某個類別中在多個文本中多次出現(xiàn),本文視該情感詞對于表征該類別越“重要”,而不是TFIDF函數(shù)所表征的越“不重要”,因此改進公式如式(7)所示.

2.2情感極性分類支持向量機(SupportVectorMachine,SVM)是一種常用的用于二分類的監(jiān)督式學(xué)習(xí)的方法.在自然語言處理領(lǐng)域中,SVM廣泛應(yīng)用于詞義消歧、文本自動分類、信息過濾等方面.文獻的實驗結(jié)果均表明,采用SVM的方法能夠取得更好的分類效果.文獻[7]進行對比實驗表明支持向量機SVM的分類方法效果最佳,分類精確度最高達到83%;文獻[8]表明在訓(xùn)練集規(guī)模較大的情況下,使用支持向量機分類方法明顯優(yōu)于其他分類方法.因此論文采用支持向量機SVM融合情感特征向量對文本進行情感極性判別.

2.3Spark分布式計算平臺Spark是UCBerkeleyAMPlab所開源的集群計算平臺,與Hadoop有相似之處,但它是立足于內(nèi)存計算的一個新的集群計算框架,具體見圖1.Hadoop的數(shù)據(jù)共享相比Spark慢,因為前者需要額外的復(fù)制,序列化和磁盤IO帶來的開銷,而后者是基于內(nèi)存計算且作業(yè)是基于構(gòu)建的Stage有向無環(huán)圖(DAG)執(zhí)行的.Spark由于它的集群架構(gòu)設(shè)計和內(nèi)核處理模式使得其更適合進行大數(shù)據(jù)挖掘或者機器學(xué)習(xí)處理等需多次迭代的領(lǐng)域,原因在于在Spark設(shè)計中融入了RDD這樣的抽象概念。RDD(ResilientDistributedDataset)是Spark的核心概念,指一個只讀的、可分區(qū)的彈性分布式數(shù)據(jù)集.Spark默認的緩存策略是將RDD以反序列化的方式緩存于內(nèi)存中,RDD的Lineage會記錄每一個RDD的父依賴,也就是Transformation操作行為.當(dāng)這個RDD的部分分區(qū)數(shù)據(jù)丟失時,由于Spark的冪等特性以及函數(shù)式語義的設(shè)計,它可以通過Lineage獲取依賴信息去重新運算并恢復(fù)丟失的數(shù)據(jù)分區(qū).Spark的這種粗粒度數(shù)據(jù)并行的計算范式,帶來了性能的提升并保證了數(shù)據(jù)的魯棒性.本文中的實驗采用Spark分布式計算平臺執(zhí)行情感分類模型并與單機平臺進行對比實驗.

3實驗結(jié)果與分析

3.1情感訓(xùn)練語料準備本文使用已經(jīng)標注好的情感語料數(shù)據(jù)集,數(shù)據(jù)集為ChnSentiCorp_Htl_del_4000(酒店領(lǐng)域),ChnSentiCorpBookdel4000(書籍領(lǐng)域)和ChnSentiCorpNBdel4000(筆記本領(lǐng)域).實驗采用ICTCLAS對文本內(nèi)容進行分詞并保留詞性和位置.一般的文本數(shù)據(jù)預(yù)處理工作會過濾無意義的停用詞,例如標點符號、代詞、語氣詞、程度副詞、連詞等,但對于文本情感分析,這些詞語恰恰是本文模型所需要的,所以模型會保留這些詞語并自定義過濾器.

3.2文本情感語料處理在Spark分布式計算平臺上進行語料預(yù)處理和生成特征向量文件的步驟大致如下:從HDFS中讀入原始文件,經(jīng)過一系列Transformtion操作,最后利用Action操作生成特征向量文件送入到MLlib庫執(zhí)行分類算法.1)從HDFS中讀入情感詞典,經(jīng)過map(f:T=>U)算子經(jīng)過reduceByKey(f:(V,V)=>V)生成情感詞典極值元組,構(gòu)建SentimentDictRDD(RDD[(K,V)]).2)從HDFS中讀入待分類的原始訓(xùn)練文件,經(jīng)過map(f:T=>U)算子利用分詞器對文件進行分詞以及標記類別和文本ID并利用flatMap(f:T=Seq(U))算子和map(f:T=>U)算子生成文本分詞元組并記錄分詞信息構(gòu)建WordRDD(RDD[(K,V)]),再經(jīng)過filter()算子利用自定義過濾器鏈過濾分詞,通過cache()算子緩存該RDD.3)在緩存RDD的基礎(chǔ)上,一方面經(jīng)過reduceByKey()算子構(gòu)建文本詞表WordsTermRDD(RDD[(K,Seq(V))]),另一方面經(jīng)過map(f:T=>U)算子和groupByKey()算子構(gòu)建倒排表InvertedTableRDD(RDD[K,Seq(V)]).4)在倒排表RDD的基礎(chǔ)上,經(jīng)過map(f:T=>U)算子計算卡方統(tǒng)計量以及sortByKey(c:Comprator[K])算子并保留文本中所有的情感特征詞,通過union()算子合并所有的情感特征構(gòu)建情感特征向量SentimentFeatureRDD(RDD[T]).5)利用詞表WordRDD結(jié)合情感特征向量SentimentFeatureRDD,根據(jù)單句情感極值和整句情感極值公式和SentimentDictRDD(RDD[(K,V)])中的情感極值對特征向量進行加權(quán)或者通過改進的TFIDF對向量進行加權(quán).6)在上面的基礎(chǔ)上,生成符合SparkMachineLearningLibrary線性支持向量機SVMWithSGD的訓(xùn)練特征向量格式的OutputSVMVectorRDD,并存于HDFS中.

3.3預(yù)測與評估實驗環(huán)境具有3個節(jié)點,1個master和2個slave(worker).集群中的單點配置如下:2核Intel(R)core{TM}i3-2350Mcpu@2.30GHzCPU處理器,4G內(nèi)存,操作系統(tǒng)為Ubuntu14.04,Hadoop版本為1.1.2,Spark版本為0.9.0,采用Standalone的集群架構(gòu)模式.單機上的SVM分類器,本文采用開源的工具LibSVM,Spark分布式計算平臺上的SVM分類器,本文采用SparkMachineLearningLibrary的SVMWithSGD分類器.對于已標注好的情感語料數(shù)據(jù)集,對于每一個情感類別,拆分數(shù)據(jù)為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),拆分比例為9:1,采用10折交叉驗證進行實驗,取SVM分類器最后的分類精度平均值作為評價標準,并采用不同的算法進行對比實驗.分類精度計算公式如式(8)所示.實驗結(jié)果如表2所示,表2的語料1、2、3分別表示酒店領(lǐng)域語料集、書籍領(lǐng)域語料集以及筆記本領(lǐng)域語料集,算法A未采用情感特征的卡方統(tǒng)計量和改進的TFIDF,算法B采用了情感特征的卡方統(tǒng)計量的CHI值組合情感極值,算法C采用改進的TFIDF組合情感特征的情感極值,算法D組合了算法B和C進行實驗.從實驗結(jié)果可以看出,算法D的分類精度較其他算法有了明顯的提升,說明本實驗通過改進的TFIDF和卡方統(tǒng)計量組合情感極值的算法能有效地提高分類精度,驗證了本文情感分類算法的有效性.表3是在單機上和Spark平臺上進行情感分類實驗,采用分類精度最佳的算法D,對比不同平臺上的分類精度和訓(xùn)練以及測試階段的時間代價(ms).從表3可以看出,采用Spark分布式計算平臺進行分類預(yù)測的分類精度較單機上的分類預(yù)測精度有所下降,但時間消耗上,在單機平臺執(zhí)行所消耗的時間比Spark分布式計算平臺多,但由于目前使用的語料集規(guī)模太小,該特征并不明顯.對比文獻[16]的實驗結(jié)果,模型的分類精度略低于文獻的分類精度,但模型的時間代價上卻更少,由此說明本文的情感分類實驗是有效的,而且本文建立的情感分類模型是適合在分布式云平臺上運行并實現(xiàn)情感分類預(yù)測的。

4結(jié)論

本文通過構(gòu)建情感詞典,利用情感特征及其關(guān)聯(lián)信息,結(jié)合卡方統(tǒng)計量技術(shù)和改進的TFIDF算法及SVM機器學(xué)習(xí)的方法對文本進行情感極性分類.在單機平臺上的實驗結(jié)果表明采用了情感特征的卡方統(tǒng)計量的CHI值及改進的TFIDF算法計算出的值組合情感極值的方法能有效地提升分類精度,分類精度最高能達到91.25%.在單機平臺上和Spark分布式計算平臺上執(zhí)行分類模型,對比分析其準確度和時間消耗,實驗結(jié)果驗證了該模型在單機平臺和分布式云平臺下情感極性分類中的有效性.下一步的工作是構(gòu)建覆蓋面更廣的領(lǐng)域情感詞典,研究更好的構(gòu)建情感極值的算法,并通過采集更大規(guī)模的數(shù)據(jù)集運用半監(jiān)督的機器學(xué)習(xí)方法進行情感分類。

作者:陳培文傅秀芬單位:廣東工業(yè)大學(xué)計算機學(xué)院

主站蜘蛛池模板: 自拍 亚洲 | 免费视频毛片 | 亚洲成人高清在线 | 亚洲自拍成人 | 精品国产一区二区三区久久影院 | 亚洲欧美国产精品 | 羞羞视频在线观免费观看 | 五月丁香啪啪 | 国产成人精品一区二区三区… | 亚洲国产精品yw在线观看 | 亚洲男人的天堂久久精品 | 欧美亚洲国产一区 | 最近中文字幕电影大全免费版 | 欧美精品一区二区精品久久 | 中文字幕日本在线mv视频精品 | 欧美午夜性视频 | 亚洲短视频在线观看 | 中文字幕永久免费视频 | 五月天婷婷激情网 | 久久一 | 久久免费视频6 | 中文国产成人精品久久一 | 四虎4hu永久免费视频大全 | 香蕉视频在线观看男女 | 最新qvod电影 | 国产免费黄色网址 | 在线va | 中文字幕视频一区 | 夜夜爱影院 | 久热最新视频 | 国产精品久久国产精品99盘 | 午夜久久福利 | 最新国产精品视频 | 免费国产小视频在线观看 | 五月婷婷六月丁香在线 | 国产视频一区在线观看 | 羞羞视频在线播放 | 色婷婷激情五月 | 亚洲精品mv在线观看 | 免费观看国产精品视频 | 欧洲欧美人成免费观看 |