本站小編為你精心準(zhǔn)備了中文微博熱點(diǎn)話題挖掘參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
《統(tǒng)計(jì)與信息論壇雜志》2014年第六期
一、相關(guān)理論
(一)話題檢測與跟蹤技術(shù)TDT作為一種主題檢索技術(shù),其特點(diǎn)主要在于關(guān)注與特定事件主題相關(guān)的數(shù)據(jù)。傳統(tǒng)的檢索技術(shù)是從內(nèi)容來檢索、確定文檔的分類,而TDT技術(shù)是基于事件,利用分析文檔與事件主題聯(lián)系來獲取特定主題信息,它從來源數(shù)據(jù)流中自動(dòng)發(fā)現(xiàn)主題并把與主題相關(guān)的內(nèi)容聯(lián)系在一起。TDT的研究任務(wù)主要包括五部分:對新聞廣播等報(bào)道進(jìn)行切分(報(bào)道切分),檢測未知話題(話題檢測),跟蹤已知話題(話題跟蹤),檢測未知話題首次相關(guān)報(bào)道(首次報(bào)道檢測)以及檢測報(bào)道間相關(guān)性(報(bào)道關(guān)聯(lián)性檢測)[7]。
(二)中文分詞及詞性標(biāo)注中文分詞就是將漢字序列切分成有意義的詞,以字為單位,句和段則通過標(biāo)點(diǎn)等分隔符來劃界。目前主流的中文分詞算法分為四類:基于字符串匹配的分詞,基于理解的分詞,基于統(tǒng)計(jì)和基于語義的分詞[8]。詞性標(biāo)注是根據(jù)句子上下文環(huán)境給句中的每個(gè)詞標(biāo)記一個(gè)正確的詞性,主要是機(jī)器針對多標(biāo)記詞(即有多種詞性的詞)和未登錄詞(即在訓(xùn)練語料中未出現(xiàn)的詞)標(biāo)記詞性。詞性標(biāo)注技術(shù)與分詞技術(shù)一樣,在自然語言處理、機(jī)器翻譯、文本自動(dòng)檢索及分類、文字識別、語音識別等實(shí)際應(yīng)用中占有重要地位[5]。目前比較典型的標(biāo)注算法歸納起來有:基于規(guī)則的方法,基于統(tǒng)計(jì)的方法,規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。本文選用的是規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。
(三)向量空間模型向量空間模型(VectorSpaceModel,VSM)是一個(gè)應(yīng)用于信息過濾、信息擷取、索引評估相關(guān)性的代數(shù)模型,文本分析對象通常是以詞為單位的VSM數(shù)據(jù)[9]。運(yùn)用這個(gè)模型把文本表示為向量,就可以將文本處理簡化為向量空間中的向量運(yùn)算。當(dāng)文檔轉(zhuǎn)化為向量時(shí),文檔中每個(gè)詞對應(yīng)向量的每個(gè)特征項(xiàng)維度,所有文檔中的詞所對應(yīng)的維度構(gòu)成了整個(gè)空間,而特征權(quán)重則是每個(gè)詞對應(yīng)每一維的取值,于是,一個(gè)文檔Dj轉(zhuǎn)化為特征向量Dj可表示為:其中tij是特征項(xiàng),wij是特征權(quán)重,M是文本tij中的特征項(xiàng)總數(shù)。另外,文本中作為特征項(xiàng)的詞不能重復(fù),即各特征項(xiàng)tij互異,且文本的內(nèi)部結(jié)構(gòu)不需要考慮,因此特征項(xiàng)tij無先后順序。
(四)K-means文本聚類K-means算法以歐式距離作為相似性的評價(jià)指標(biāo),即認(rèn)為兩個(gè)對象的距離越近,其相似度就越大,得到緊湊且獨(dú)立的簇是聚類的最終目標(biāo)。K-means算法中距離的計(jì)算公式如下:第一步,從數(shù)據(jù)對象中任意選擇K個(gè)對象(K值需要預(yù)先設(shè)定)作為初始聚類中心。第二步,計(jì)算剩下的對象與這些聚類中心的相似度(距離),并分別將它們分配給最相似的(聚類中心所代表的)類。第三步,重新計(jì)算每個(gè)新類的聚類中心(該聚類中所有對象的均值)。第四步,不斷重復(fù)第二、三步,直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止,一般采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。該算法在處理大數(shù)據(jù)集時(shí)是相對高效和可伸縮的,計(jì)算的復(fù)雜度為ON(kt),其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)(一般K≤N,t≤N,同時(shí)算法對順序不太敏感,因此較適合對VSM表示的文本集進(jìn)行聚類。本文聚類效果的驗(yàn)證采用類平均相似度,公式為:其中AVGT()SIM表示類T的平均相似度;CT表示類T所包含的微博條數(shù);ft(avg(sim))表示類T中單條微博文t的個(gè)體平均相似度,即t與類T中其余微博文的相似程度之和取平均值。將類中所有微博文的個(gè)體平均相似度之和取一次平均值,從而得到類的平均相似度。
二、研究設(shè)計(jì)
(一)識別流程本文基于TDT技術(shù)設(shè)計(jì)出中文微博熱點(diǎn)話題識別流程,主要環(huán)節(jié)如圖1所示。首先通過微博爬蟲系統(tǒng)獲取所需的數(shù)據(jù),如微博內(nèi)容、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、受眾數(shù)等;接著從獲取數(shù)據(jù)中提取話題識別的數(shù)據(jù)源,利用中文分詞處理過濾數(shù)據(jù);對預(yù)處理后的微博內(nèi)容中的每個(gè)特征詞,利用特征詞權(quán)值計(jì)算方法TF-IDF(TermFrequency–InverseDocumentFrequency)計(jì)算特征權(quán)重并建立向量空間模型,再利用K-means文本聚類來歸納出多個(gè)話題;最后對多個(gè)話題的影響力進(jìn)行計(jì)算并分析,通過效果驗(yàn)證識別出熱點(diǎn)話題。
(二)熱點(diǎn)判定———話題影響力設(shè)計(jì)本文基于微博特點(diǎn)和話題本身,提出熱度的判定因素———話題影響力。微博熱點(diǎn)話題影響力為該話題中單條相關(guān)微博內(nèi)容的影響力總和,單條微博內(nèi)容的影響力又分為直接影響力和間接影響力。由于用戶發(fā)表的微博文直接呈現(xiàn)給關(guān)注該用戶的受眾,因此單條微博的直接影響力與該條微博用戶的關(guān)注人數(shù)(受眾數(shù))相關(guān)[10]。本文此處只考慮微博評論數(shù)與第一層的轉(zhuǎn)發(fā)數(shù)。定義話題影響力相關(guān)計(jì)算公式如下:其中Inf()T為話題T的影響力;n為該類中與話題相關(guān)的微博條數(shù);Inf()t為單條相關(guān)微博內(nèi)容t的影響力。一個(gè)話題的影響力為話題中所包含的所有相關(guān)微博內(nèi)容影響力之和。其中InfD()t為單條相關(guān)微博內(nèi)容t的直接影響力;InfI()t為單條相關(guān)微博內(nèi)容t的間接影響力。單條微博的影響力為直接影響力與間接影響力之和。題T的影響力為:
三、實(shí)證分析
本文實(shí)驗(yàn)數(shù)據(jù)隨機(jī)選取了2011年12月8日到2011年12月14日這7天內(nèi)的微博數(shù)據(jù),通過新浪微博API接口共爬取微博內(nèi)容2103條。根據(jù)研究設(shè)計(jì)的熱點(diǎn)話題挖掘流程,對該周內(nèi)新浪微博熱點(diǎn)話題挖掘進(jìn)行實(shí)證研究。
(一)數(shù)據(jù)預(yù)處理首先對微博內(nèi)容進(jìn)行文本預(yù)處理,即進(jìn)行去重、分詞、無效信息過濾、降維等操作。實(shí)驗(yàn)中使用C#版本的中科院ICTCLAS中文分詞系統(tǒng)對微博文本進(jìn)行分詞處理,同時(shí)標(biāo)注詞性,并過濾微博內(nèi)容,保留名詞及名詞性詞語,然后將所有的單字過濾,再去除所有的英文字符、數(shù)字和一系列數(shù)學(xué)符號等非中文詞,只留下有意義的中文詞語。圖2為關(guān)于“2012年倫敦奧運(yùn)會(huì)期間英國女王出租宮殿套間”話題文本示例。
(二)話題識別文本預(yù)處理后,針對每條微博內(nèi)容,利用特征詞權(quán)值計(jì)算方法TF-IDF計(jì)算各個(gè)單詞權(quán)重,以構(gòu)成一個(gè)向量空間模型用于聚類。實(shí)驗(yàn)中,K值在最大值范圍內(nèi)通過多次實(shí)驗(yàn)結(jié)果驗(yàn)證來選取。經(jīng)過多次試驗(yàn),最終將該周的微博內(nèi)容聚為10類,并對各類進(jìn)行類關(guān)鍵詞提取,結(jié)果如表1所示。以上10類中,所提取的關(guān)鍵詞具有較強(qiáng)實(shí)時(shí)性的有6個(gè),關(guān)鍵詞所包含信息較為日常的類有4個(gè)。此時(shí)若設(shè)置類平均相似度閾值為0.01,則恰好包含較強(qiáng)實(shí)時(shí)信息的6個(gè)類別。將類平均相似度高于閾值且包含較強(qiáng)實(shí)時(shí)信息的類定義為一個(gè)話題,則從微博內(nèi)容中發(fā)現(xiàn)話題數(shù)目為6個(gè),分別為類3、4、6、7、8、10。
(三)話題影響力排序大多關(guān)于熱點(diǎn)發(fā)現(xiàn)的算法認(rèn)為,在聚類后出現(xiàn)的熱點(diǎn)詞頻率較高,則該話題即為熱點(diǎn)話題。這種原理是基于熱點(diǎn)詞與話題的附屬關(guān)系,但卻忽略了當(dāng)話題較分散的情況下聚類也能進(jìn)行,同時(shí)在聚類結(jié)果中,可能有些話題只是局部較熱的小話題,整體來講算不上熱度很高[11],因此可以設(shè)置一個(gè)閾值來區(qū)分話題冷熱,話題熱度(本文中以話題影響力來衡量)高于閾值則表示聚類出來的話題為“熱點(diǎn)話題”,低于閾值則視為“非熱點(diǎn)話題”。熱點(diǎn)與非熱點(diǎn)的概念是相對的,因此也可以根據(jù)話題影響力公式計(jì)算出每個(gè)話題的熱度,然后按照熱度分?jǐn)?shù)排序,分?jǐn)?shù)越高表示話題影響力越大,熱度越高。實(shí)驗(yàn)中,挖掘熱點(diǎn)話題的數(shù)據(jù)來源時(shí)間段Δh為2011年12月8日至2011年12月14日。由于實(shí)驗(yàn)中發(fā)現(xiàn)話題的總數(shù)較少,故本實(shí)驗(yàn)不以預(yù)先設(shè)定話題影響力閾值來劃分“熱點(diǎn)”與“非熱點(diǎn)”,只將話題按影響力大小排序,即設(shè)定所發(fā)現(xiàn)話題均為熱度不同的熱點(diǎn)話題。根據(jù)話題影響力相關(guān)計(jì)算公式(4)~(8),計(jì)算得到實(shí)驗(yàn)中所提取的6個(gè)話題在當(dāng)前時(shí)段的影響力評分及排名,如表2所示。考慮到微博轉(zhuǎn)發(fā)會(huì)使微博的影響擴(kuò)散,相對于評論其影響力更大,因此公式(8)中α取值為0.4,β取值為0.6.從以上分析結(jié)果可以看出,在實(shí)驗(yàn)識別出的2011年12月8日到2011年12月14日的6個(gè)話題中,影響力從大到小依次是江蘇豐縣校車事故、南京大屠殺紀(jì)念日、韓國海警被刺事件、電影《金陵十三釵》即將上映、廣東陸豐烏坎村群體事件、雙子座流星雨爆發(fā)。
(四)效果驗(yàn)證話題識別與跟蹤的效果一般使用準(zhǔn)確率和召回率兩個(gè)參數(shù)來衡量,公式如下:A表示已提取出的與話題相關(guān)內(nèi)容,B表示已提取出的與話題不相關(guān)內(nèi)容,C表示未提取出的與話題相關(guān)內(nèi)容。在全部文本數(shù)據(jù)中,與話題相關(guān)的數(shù)目為A+C,而被判定與話題相關(guān)的數(shù)目為A+B。召回率和精度是不可能兩全其美。當(dāng)召回率較高時(shí),精度反而降低;反之精度高時(shí),召回率就會(huì)有所降低。因此,本文用這兩個(gè)度量值融合而成的一個(gè)度量值F來衡量這個(gè)效果。F值公式如下:實(shí)驗(yàn)以“召回率”、“準(zhǔn)確率”驗(yàn)證熱點(diǎn)話題發(fā)現(xiàn)效果,根據(jù)公式(9)、(10)、(11)計(jì)算出每個(gè)話題的召回率與準(zhǔn)確率,如表3所示。從表3可以看出,6個(gè)熱點(diǎn)話題召回率從高到低依次為:韓國海警被刺事件,江蘇豐縣校車事故,南京大屠殺周年紀(jì)念,雙子座流星雨,陸豐烏坎村群體事件,電影《金陵十三釵》話題,各類話題召回率均較高。相反,各類話題準(zhǔn)確率均較低,最高為雙子座流星雨,僅為0.769,最低為廣東陸豐群體事件,僅為0.641。聚類準(zhǔn)確率低與微博內(nèi)容零散、談?wù)撛掝}范圍極其廣泛有關(guān),即話題聚類時(shí)噪聲數(shù)據(jù)太多,導(dǎo)致β值較大。實(shí)驗(yàn)表明微博熱點(diǎn)話題發(fā)現(xiàn)的“召回率”較高而準(zhǔn)確率較低,這與微博內(nèi)容的不規(guī)范性、隨意性等特點(diǎn)有關(guān)。從綜合衡量召回率和準(zhǔn)確率的F值來看,熱點(diǎn)識別取得了良好的效果。盡管微博內(nèi)容存在一定的不規(guī)范和隨意性,但從實(shí)證分析中可以看到,聚類所選取出的6類熱點(diǎn)話題F值均保持在0.75以上。
四、結(jié)論
本文借鑒TDT技術(shù),設(shè)計(jì)了一套中文微博熱點(diǎn)話題挖掘流程,并利用一段時(shí)間內(nèi)的少量新浪微博數(shù)據(jù)進(jìn)行熱點(diǎn)發(fā)掘?qū)嵶C研究。該流程可以使微博站點(diǎn)外部用戶利用少量微博數(shù)據(jù)便能挖掘微博熱點(diǎn),以滿足其監(jiān)控輿情或發(fā)現(xiàn)商機(jī)的需要。本文主要的創(chuàng)新工作有以下兩點(diǎn):第一,將識別熱點(diǎn)話題的主流技術(shù)TDT運(yùn)用于中文微博平臺,同時(shí)還在流程設(shè)計(jì)中結(jié)合了中文微博的特性。第二,微博平臺往往以單一的微博數(shù)量指標(biāo)來衡量話題熱度,而本文則提出了以話題影響力的大小來評判話題熱度。由于新浪爬蟲程序爬取的數(shù)據(jù)有限,因而本文僅限于對能收集到的數(shù)據(jù)進(jìn)行研究,實(shí)證結(jié)果難免有一定的局限。另外,微博內(nèi)容較雜亂,噪聲信息較多,話題聚類效果也有待提高,因此相關(guān)聚類算法的改進(jìn)也是未來研究的方向。話題影響力驗(yàn)證方法還需完善,后期可以對熱點(diǎn)話題進(jìn)行動(dòng)態(tài)跟蹤,以發(fā)現(xiàn)熱點(diǎn)話題的整體趨勢變化。
作者:何躍帥馬戀馮韻單位:四川大學(xué)商學(xué)院