本站小編為你精心準備了基于數據挖掘的微博突發事件研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
如何高效地從海量數據中檢測微博突發事件,成為近年來國內外學者的研究熱點。分析突發事件的特征,采用詞頻增量、基于命名實體和微博傳播特性的TF-PDF公式提取突發特征;引入項間關聯規則,利用突發詞的項間距離結合改進的Single-pass聚類算法生成突發簇集,識別出突發事件。通過新浪微博真實數據集的實驗表明,該方法從海量微博中有效檢測出微博突發事件。
關鍵詞:
事件檢測;特征;突發事件;聚類
0引言
Web2.0的興起徹底改變了用戶感知網絡的方式,龐大的用戶群體使得微博成為民眾積極參與、傳播、評論、轉發的快捷社交平臺。據中國互聯網信息中心(CNNIC)的最新中國互聯網絡發展狀況統計報告顯示,截至2015年12月,中國網民規模達到6.88億,互聯網普及率達到50.3%,中國居民上網人數已過半,較2014年相比,網民規模增速有所提升。至此,全新的社交時代已來臨。用戶注冊登錄個人賬戶,通過140字左右的文字、表情符號、圖片、視頻等更新自己的最新狀態,包括自己的心情、對某一具體事件的看法、評論、點贊及轉發好友的微博,同時,還具備參與“#話題#”、“@好友”、私信好友功能。因此,迅猛發展的網絡社交平臺必然帶來海量的微博數據。面對龐大的數據集,如何從多樣化的微博數據中快速準確地檢測出新聞話題,便于政府及時掌握各個時期微博中民眾關心的熱點話題,對輿情監控、監管預警、安全防范等方面具有十分重要的意義。同時,突發話題檢測可以有效過濾用戶不感興趣的微博文本,獲取用戶關注的博文,改善用戶瀏覽體驗。因此,突發事件檢測具有極為重要的現實意義。
1相關工作對比
傳統文本數據,微博具有以下特點[1]:①微博字數較少,被限制在140字以內,文本稀疏性較高。②微博用戶較多,必然產生繁冗的垃圾信息,文本冗余性較高。③微博用戶的博文,非正式語法居多,用詞造句較為隨意,例如,網絡用語、表情符號、文字縮寫等。目前,國內外針對微博的突發事件檢測也有一些研究。Yang等人[2]首先提出從新聞數據流中自動檢測新聞事件算法,Xu等人[3]通過設置時間窗口策略結合改進TF-IDF算法檢測新事件,缺點是未考慮到上下文語境。張魯民等人[4]通過實時監測情感符號變化趨勢,采用近鄰傳播聚類算法檢測突發事件。張曉霞等人[5]將用以表征科學家貢獻的H指數用于檢測突發詞,結合凝聚式層次聚類方法識別突發事件。該方法引入H指數對詞語權重進行篩選抽取突發詞,未考慮到微博傳播特征對突發特征的影響。檢測方法多數集中于兩方面[6-9],基于文本的事件檢測方法和基于突發特征的事件檢測方法。其中,主要任務是話題識別和文本聚類。本文基于突發事件的突發特性,提出了一種微博話題檢測的新方法。分為以下三個步驟:微博文本預處理、突發詞抽取、突發詞聚類。文本預處理階段,采用中文分詞工具對微博文本進行去噪、分詞處理;采用時間窗詞頻增量和加權的TF-PDF公式提取突發詞;最后,引入項間關聯規則,利用突發詞的項間距離和改進的Single-pass聚類算法生成突發簇集,識別出突發事件。
2微博文本預處理
據統計,新浪微博的每日用戶量達到7500萬條數據,如此龐大的數據量里面必然包含繁雜的垃圾信息,如用戶個人心情、商業營銷廣告等。這些無用信息的存在必然會對實驗結果產生影響。鑒于微博文本的高冗余性和特征稀疏性特點,需要對微博文本作相應處理。本文使用中科院張華平教授研發的ICTCLAS漢語分詞系統,該系統具有中文分詞、詞性標注、支持自定義用戶詞典等功能,并結合以下預處理規則,對文本進行去噪,提高實驗精準度。
(1)過濾詞語數少于3個的微博。文獻[10]指出,由于微博文本字數限定在140字內,綜合考慮新聞六要素(5W1H)發現,何事、何地、何時三要素可以清晰描述一個事件。因此,過濾少于3個詞語的博文。
(2)去除停用詞。通常指無實際意義的代詞和助詞,如“我”、“他”、“的”、“吧”等。
(3)去除關注度為0的賬號所發的微博。此類用戶通常是由系統自動產生的惡意注冊用戶,行為極不活躍,其微博的多為轉發商業廣告,噪聲極大。
(4)去除URL鏈接。博文中通常出現URL,此類鏈接多指向廣告、視頻,對于我們研究文本無意義。
(5)過濾包含“@”符號微博。包含“@”微博多用為兩個用戶間的信息交互,此類微博通常為個人瑣事,不會成為突發話題。
(6)導入用戶自定義詞典,用于識別未登陸詞、常用詞。
3突發特征
抽取微博數據預處理完成后,如何正確抽取突發特征是微博突發事件檢測的重要工作。在本文中,計算相對單位時間窗口內詞頻的增長率,綜合考量命名實體和微博傳播影響力對計算詞語權重的影響,提出基于命名實體和微博傳播影響力的綜合加權TF-PDF算法,有效篩選出突發詞。
3.1詞頻增量Kleiberg在2002年最早提出突發檢測算法(BurstDetectionAlgorithm),他提出包含某個詞的文獻數量是在不同水平間的跳動,該詞的重要性體現在詞出現的密度,即頻次相對增長的詞匯,稱之為突發詞。本文將突發詞定義為:在一段時間內,當前時間窗突然涌現且出現的頻次急速增加,但在此刻之前的時間窗內極少或并未出現的詞。本文中識別突發詞的時間窗口設置為一天。在經微博數據預處理后,統計時間窗j內詞i出現的頻率f(i,j),給出詞頻在時間窗口內的增長率公式(1):Fi,j=fi,j-fi,j-11+fi,j-1(1)式中,Fi,j表示詞i在j時間窗詞頻增長率,fi,j表示詞i在j時間窗出現的頻率fi,j,fi,j-1表示詞i在j-1時間窗出現的頻率fi,j-1。
3.2詞語權重TF-IDF算法是信息檢索和文本挖掘領域經典的加權算法,用于評估一個詞對于整篇文檔或整個語料庫的重要性,其思想是一個詞的重要性會隨著它在文件中出現的頻次成正比,隨著在語料庫出現的頻次成反比。wi,j=tfk,j×idfj=mi,jMj×log(Nn)(2)公式(2)中,mi,j表示文檔j中詞i出現的次數,Mj表示文檔j的總詞數,N為總文檔數,n為包含詞i的文檔數。該算法考慮到如果詞出現在多個文本中就認為該詞語權值較低,對于突發詞而言,一段時間內該詞是暴增的,因此使用TF-IDF算法計算突發詞權重時缺少較好的區分度。本文采用文獻[11]提出的TF-PDF算法計算詞語權重,該算法為多個渠道多個文檔頻繁出現的詞分配更高的權重,更符合突發事件的特征,公式(3)(4)如下:wi=nt=1Σ|fi,t|exp(di,tdt)(3)|fi,t|=fi,tnc=1Σfc,t2姨(4)其中,Wi表示詞i的權重,n表示渠道的數量(即時間窗的數量),fi,t表示詞i在時間窗t內出現的頻率,di,t表示在時間窗t內包含詞i的文檔數(即包含詞i的博文數),dt表示時間窗t內所有文檔數(即所有博文數)。據研究統計,突發事件的文本多以命名實體組成,如“云南魯甸地震”、“昆明火車站暴恐”,所謂的命名實體包括人名、地名、機構名、專有名、時間等以名稱為標識的實體。本文在TF-PDF算法基礎上引入命名實體的附加權重Mi,見公式(5)。Mi=1詞i屬于命名實體0.7詞i不屬于命名實i體(5)當包含特定詞的文本在微博中廣泛傳播,該事件極有可能引起更用于多人的注意,引發熱烈討論,換言之,在微博傳播過程中,一條微博的迅猛傳播,極有可能引起突發事件。因此,本文引入微博傳播影響力得計算。公式(6)、(7)如下:BIi,j=FWi,j3姨+姨CWi,j(6)Ii=120000<BIi0.810000<BIi<200000.6BIi<1000000000000000(7)其中,BIi,j為包含詞i的微博j的影響力,FWi,j為微博j的轉發數,CMi,j為微博j的評論數,Ii包含詞i的微博的總影響力。為避免微博影響力過大,弱化其他因素,故將影響力控制在一定范圍內。綜合考慮命名實體規則及微博傳播影響力,提出突發詞權重公式(8)計算如下:Wi=wi×Mi×Ii(8)結合詞語突發性和詞語權重,最終提出復合權值評價一個詞的權重,公式(9)中,α取值為0.5。Weighti,j=αlnFi,j+(1-α)lnWi(9)由以上詞頻統計和基于命名實體和微博傳播影響力的詞語權重計算算法抽取突發詞,生成突發詞集Burst={burst1,burst2,burst3,…,bursti}。
4突發詞聚類
如何將突發詞進行聚類從而識別出突發事件是本小節的研究重點。通過突發詞聚類,生成大小不一的突發詞類簇,每個簇即代表一個微博突發事件。目前,常用的文本聚類的算法有:劃分聚類算法、密度聚類算法、層次聚類算法等。其中常用的聚類算法是K-means算法、凝聚型層次聚類算法、Single-pass算法。K-means算法需指定類簇的個數且聚類結果對初始簇心的選擇較為敏感,凝聚型層次聚類算法時間復雜性高,處理大規模數據集速度較慢。傳統的Single-pass算法思想是依次讀入新文本T,將T與已有類簇進行相似度比較,判斷T與距離最近的簇的相似度是否大于閾值,若大于閾值,將T歸為對應的類簇,否則,建立新簇。為提高聚類結果的準確性,本文采用改進的Sin-gle-pass算法,實現對突發詞的聚類。算法思想如下:①輸入文檔T;②計算T與已有類簇內所有文本的平均相似度,判斷是否大于閾值;③將相似度與閾值比較,若大于閾值,則文檔T歸為該類,否則,建立新類簇T。④聚類結束;本文引入關聯規則中項與項的距離計算突發詞之間的距離,距離越大,相似度越小。將突發詞集比作事務數據庫,wordi和wordj是事務數據庫的任意兩項,它們之間的距離定義為:Dwordi,wordj=1-|R||R(wordi)|+|R|-|R|(10)(10)式中,Dwordi,wordj表示wordi和wordj間的距離,R表示包含wordi和wordj的文本數,R(wordi)表示包含wordi的文本數,R表示包含wordj的文本數。通過以上聚類方法,突發詞被歸類到不同的類簇,類簇大小不同,每一類簇內的突發詞具有極高的相似度,整個類簇代表一個突發事件。前文中提到表征一個事件至少需要三個詞,因此去除小于三個突發詞的類簇。
5實驗結果與分析
本實驗的數據源取自新浪微博,通過新浪微博API和網絡爬蟲,共采集2014年5月28日-2014年6月1的590194條微博數據。包括微博用戶信息(用戶ID、粉絲、關注度、微博等字段),微博信息(微博ID、博文、轉發數、評論數等)。通過前文數據預處理中提到的過濾規則對原始數據進行過濾、去噪,經預處理后篩選出398104條文本數據。使用ICTCLAS系統對微博文本進行分詞、過濾停用詞(1893個停用詞)、增加用戶詞典(本文使用搜狗互聯網詞庫,共157202個詞語),詞性標注。本實驗中,時間窗口設置為1天,抽取單位時間窗口內權重最高的前20個突發詞,最終構成突發詞集如表1表示。本文使用傳統TF-PDF權重計算方法和Single-pass聚類算法作為對比試驗,評測標準如下:準確率(Precision)=兩種方法實驗結果如表2所示:從本文聚類簇中選取最大的5個類簇代表該類簇的突發事件,根據上文微博影響力的計算,選出與該簇相關的影響力較高的微博作為該簇集的突發事件,如表3所示。
6結語
本文通過分析突發事件的特點,提出利用詞頻增量和加權的TF-PDF公式提取突發特征,引入突發詞的項間距離結合改進的Single-pass聚類算法生成突發簇集,識別出突發事件。通過新浪微博的590154條真實數據集的實驗結果表明,該算法地能夠有效地檢測出突發事件,聚類效果較好。然而,在接下來研究工作中,本文還有以下幾點可以改進的地方:
(1)突發詞集抽取過程中,綜合考慮用戶的特征及微博傳播、影響特性多方面因素計算突發詞權重。
(2)Single-pass算法效果對文本輸入順序較為敏感,聚類結果可能存在誤差。
(3)后續可進行突發事件的情感分析,分析突發事件是否為負面事件,給予積極的輿論導向。
參考文獻:
[1]史劍虹.基于隱主題分析的中文微博話題發現[J].計算機應用研究,2014:701-704.
[2]張魯民,賈焰,周斌,趙金輝,洪鋒.一種基于情感符號的在線突發事件檢測方法[M].計算機學報,2013:1559-1667.
[3]張曉霞,王名揚,賈沖沖,董煦.基于突發詞H指數的微博突發事件檢測算法研究[M].情報雜志,2015:37-41.
[4]趙潔,馬錚,周曉峰,金培權.基于突發詞項頻域分析的微博突發事件檢測[J].信息系統,2015:124-129.
[5]薛峰,周亞東,高峰.劉霽,趙俊舟,黨琪.一種突發性熱點話題在線發現與跟蹤[J].西安交通大學學報,2011:64-70.
[6]逯萬輝,馬建霞,趙迎光.爆發詞識別與主題探測技術研究綜述[J].情報理論與實踐,2012:125-128.
[7]郭跇秀,呂學強,李卓.基于突發詞聚類的微博突發事件檢測方法[J].計算機應用,2014:486-490.
[8]王勇,肖詩斌,郭跇秀,呂學強.中文微博突發事件檢測研究[J].現代圖書情報技術,2013:57-62.
作者:楊子 欒翠菊 單位:上海海事大學信息工程學院