亚洲视频自拍,伊人精品综合,中文字幕一区久久久久

本站小編為你精心準(zhǔn)備了中文微博熱點(diǎn)話題挖掘參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

中文微博熱點(diǎn)話題挖掘

《統(tǒng)計(jì)與信息論壇雜志》2014年第六期

一、相關(guān)理論

（一）話題檢測與跟蹤技術(shù)TDT作為一種主題檢索技術(shù)，其特點(diǎn)主要在于關(guān)注與特定事件主題相關(guān)的數(shù)據(jù)。傳統(tǒng)的檢索技術(shù)是從內(nèi)容來檢索、確定文檔的分類，而TDT技術(shù)是基于事件，利用分析文檔與事件主題聯(lián)系來獲取特定主題信息，它從來源數(shù)據(jù)流中自動(dòng)發(fā)現(xiàn)主題并把與主題相關(guān)的內(nèi)容聯(lián)系在一起。TDT的研究任務(wù)主要包括五部分：對新聞廣播等報(bào)道進(jìn)行切分（報(bào)道切分），檢測未知話題（話題檢測），跟蹤已知話題（話題跟蹤），檢測未知話題首次相關(guān)報(bào)道（首次報(bào)道檢測）以及檢測報(bào)道間相關(guān)性（報(bào)道關(guān)聯(lián)性檢測）［7］。

（二）中文分詞及詞性標(biāo)注中文分詞就是將漢字序列切分成有意義的詞，以字為單位，句和段則通過標(biāo)點(diǎn)等分隔符來劃界。目前主流的中文分詞算法分為四類：基于字符串匹配的分詞，基于理解的分詞，基于統(tǒng)計(jì)和基于語義的分詞［8］。詞性標(biāo)注是根據(jù)句子上下文環(huán)境給句中的每個(gè)詞標(biāo)記一個(gè)正確的詞性，主要是機(jī)器針對多標(biāo)記詞（即有多種詞性的詞）和未登錄詞（即在訓(xùn)練語料中未出現(xiàn)的詞）標(biāo)記詞性。詞性標(biāo)注技術(shù)與分詞技術(shù)一樣，在自然語言處理、機(jī)器翻譯、文本自動(dòng)檢索及分類、文字識別、語音識別等實(shí)際應(yīng)用中占有重要地位［5］。目前比較典型的標(biāo)注算法歸納起來有：基于規(guī)則的方法，基于統(tǒng)計(jì)的方法，規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。本文選用的是規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。

（三）向量空間模型向量空間模型（VectorSpaceModel，VSM）是一個(gè)應(yīng)用于信息過濾、信息擷取、索引評估相關(guān)性的代數(shù)模型，文本分析對象通常是以詞為單位的VSM數(shù)據(jù)［9］。運(yùn)用這個(gè)模型把文本表示為向量，就可以將文本處理簡化為向量空間中的向量運(yùn)算。當(dāng)文檔轉(zhuǎn)化為向量時(shí)，文檔中每個(gè)詞對應(yīng)向量的每個(gè)特征項(xiàng)維度，所有文檔中的詞所對應(yīng)的維度構(gòu)成了整個(gè)空間，而特征權(quán)重則是每個(gè)詞對應(yīng)每一維的取值，于是，一個(gè)文檔Dj轉(zhuǎn)化為特征向量Dj可表示為：其中tij是特征項(xiàng)，wij是特征權(quán)重，M是文本tij中的特征項(xiàng)總數(shù)。另外，文本中作為特征項(xiàng)的詞不能重復(fù)，即各特征項(xiàng)tij互異，且文本的內(nèi)部結(jié)構(gòu)不需要考慮，因此特征項(xiàng)tij無先后順序。

（四）K－means文本聚類K－means算法以歐式距離作為相似性的評價(jià)指標(biāo)，即認(rèn)為兩個(gè)對象的距離越近，其相似度就越大，得到緊湊且獨(dú)立的簇是聚類的最終目標(biāo)。K－means算法中距離的計(jì)算公式如下：第一步，從數(shù)據(jù)對象中任意選擇K個(gè)對象（K值需要預(yù)先設(shè)定）作為初始聚類中心。第二步，計(jì)算剩下的對象與這些聚類中心的相似度（距離），并分別將它們分配給最相似的（聚類中心所代表的）類。第三步，重新計(jì)算每個(gè)新類的聚類中心（該聚類中所有對象的均值）。第四步，不斷重復(fù)第二、三步，直到標(biāo)準(zhǔn)測度函數(shù)開始收斂為止，一般采用均方差作為標(biāo)準(zhǔn)測度函數(shù)。該算法在處理大數(shù)據(jù)集時(shí)是相對高效和可伸縮的，計(jì)算的復(fù)雜度為ON（kt），其中N是數(shù)據(jù)對象的數(shù)目，t是迭代的次數(shù)（一般K≤N，t≤N，同時(shí)算法對順序不太敏感，因此較適合對VSM表示的文本集進(jìn)行聚類。本文聚類效果的驗(yàn)證采用類平均相似度，公式為：其中AVGT（）SIM表示類T的平均相似度；CT表示類T所包含的微博條數(shù)；ft（avg（sim））表示類T中單條微博文t的個(gè)體平均相似度，即t與類T中其余微博文的相似程度之和取平均值。將類中所有微博文的個(gè)體平均相似度之和取一次平均值，從而得到類的平均相似度。

二、研究設(shè)計(jì)

（一）識別流程本文基于TDT技術(shù)設(shè)計(jì)出中文微博熱點(diǎn)話題識別流程，主要環(huán)節(jié)如圖1所示。首先通過微博爬蟲系統(tǒng)獲取所需的數(shù)據(jù)，如微博內(nèi)容、評論數(shù)、轉(zhuǎn)發(fā)數(shù)、受眾數(shù)等；接著從獲取數(shù)據(jù)中提取話題識別的數(shù)據(jù)源，利用中文分詞處理過濾數(shù)據(jù)；對預(yù)處理后的微博內(nèi)容中的每個(gè)特征詞，利用特征詞權(quán)值計(jì)算方法TF－IDF（TermFrequency–InverseDocumentFrequency）計(jì)算特征權(quán)重并建立向量空間模型，再利用K－means文本聚類來歸納出多個(gè)話題；最后對多個(gè)話題的影響力進(jìn)行計(jì)算并分析，通過效果驗(yàn)證識別出熱點(diǎn)話題。

（二）熱點(diǎn)判定———話題影響力設(shè)計(jì)本文基于微博特點(diǎn)和話題本身，提出熱度的判定因素———話題影響力。微博熱點(diǎn)話題影響力為該話題中單條相關(guān)微博內(nèi)容的影響力總和，單條微博內(nèi)容的影響力又分為直接影響力和間接影響力。由于用戶發(fā)表的微博文直接呈現(xiàn)給關(guān)注該用戶的受眾，因此單條微博的直接影響力與該條微博用戶的關(guān)注人數(shù)（受眾數(shù)）相關(guān)［10］。本文此處只考慮微博評論數(shù)與第一層的轉(zhuǎn)發(fā)數(shù)。定義話題影響力相關(guān)計(jì)算公式如下：其中Inf（）T為話題T的影響力；n為該類中與話題相關(guān)的微博條數(shù)；Inf（）t為單條相關(guān)微博內(nèi)容t的影響力。一個(gè)話題的影響力為話題中所包含的所有相關(guān)微博內(nèi)容影響力之和。其中InfD（）t為單條相關(guān)微博內(nèi)容t的直接影響力；InfI（）t為單條相關(guān)微博內(nèi)容t的間接影響力。單條微博的影響力為直接影響力與間接影響力之和。題T的影響力為：

三、實(shí)證分析

本文實(shí)驗(yàn)數(shù)據(jù)隨機(jī)選取了2011年12月8日到2011年12月14日這7天內(nèi)的微博數(shù)據(jù)，通過新浪微博API接口共爬取微博內(nèi)容2103條。根據(jù)研究設(shè)計(jì)的熱點(diǎn)話題挖掘流程，對該周內(nèi)新浪微博熱點(diǎn)話題挖掘進(jìn)行實(shí)證研究。

（一）數(shù)據(jù)預(yù)處理首先對微博內(nèi)容進(jìn)行文本預(yù)處理，即進(jìn)行去重、分詞、無效信息過濾、降維等操作。實(shí)驗(yàn)中使用C＃版本的中科院ICTCLAS中文分詞系統(tǒng)對微博文本進(jìn)行分詞處理，同時(shí)標(biāo)注詞性，并過濾微博內(nèi)容，保留名詞及名詞性詞語，然后將所有的單字過濾，再去除所有的英文字符、數(shù)字和一系列數(shù)學(xué)符號等非中文詞，只留下有意義的中文詞語。圖2為關(guān)于“2012年倫敦奧運(yùn)會(huì)期間英國女王出租宮殿套間”話題文本示例。

（二）話題識別文本預(yù)處理后，針對每條微博內(nèi)容，利用特征詞權(quán)值計(jì)算方法TF－IDF計(jì)算各個(gè)單詞權(quán)重，以構(gòu)成一個(gè)向量空間模型用于聚類。實(shí)驗(yàn)中，K值在最大值范圍內(nèi)通過多次實(shí)驗(yàn)結(jié)果驗(yàn)證來選取。經(jīng)過多次試驗(yàn)，最終將該周的微博內(nèi)容聚為10類，并對各類進(jìn)行類關(guān)鍵詞提取，結(jié)果如表1所示。以上10類中，所提取的關(guān)鍵詞具有較強(qiáng)實(shí)時(shí)性的有6個(gè)，關(guān)鍵詞所包含信息較為日常的類有4個(gè)。此時(shí)若設(shè)置類平均相似度閾值為0．01，則恰好包含較強(qiáng)實(shí)時(shí)信息的6個(gè)類別。將類平均相似度高于閾值且包含較強(qiáng)實(shí)時(shí)信息的類定義為一個(gè)話題，則從微博內(nèi)容中發(fā)現(xiàn)話題數(shù)目為6個(gè)，分別為類3、4、6、7、8、10。

（三）話題影響力排序大多關(guān)于熱點(diǎn)發(fā)現(xiàn)的算法認(rèn)為，在聚類后出現(xiàn)的熱點(diǎn)詞頻率較高，則該話題即為熱點(diǎn)話題。這種原理是基于熱點(diǎn)詞與話題的附屬關(guān)系，但卻忽略了當(dāng)話題較分散的情況下聚類也能進(jìn)行，同時(shí)在聚類結(jié)果中，可能有些話題只是局部較熱的小話題，整體來講算不上熱度很高［11］，因此可以設(shè)置一個(gè)閾值來區(qū)分話題冷熱，話題熱度（本文中以話題影響力來衡量）高于閾值則表示聚類出來的話題為“熱點(diǎn)話題”，低于閾值則視為“非熱點(diǎn)話題”。熱點(diǎn)與非熱點(diǎn)的概念是相對的，因此也可以根據(jù)話題影響力公式計(jì)算出每個(gè)話題的熱度，然后按照熱度分?jǐn)?shù)排序，分?jǐn)?shù)越高表示話題影響力越大，熱度越高。實(shí)驗(yàn)中，挖掘熱點(diǎn)話題的數(shù)據(jù)來源時(shí)間段Δh為2011年12月8日至2011年12月14日。由于實(shí)驗(yàn)中發(fā)現(xiàn)話題的總數(shù)較少，故本實(shí)驗(yàn)不以預(yù)先設(shè)定話題影響力閾值來劃分“熱點(diǎn)”與“非熱點(diǎn)”，只將話題按影響力大小排序，即設(shè)定所發(fā)現(xiàn)話題均為熱度不同的熱點(diǎn)話題。根據(jù)話題影響力相關(guān)計(jì)算公式（4）～（8），計(jì)算得到實(shí)驗(yàn)中所提取的6個(gè)話題在當(dāng)前時(shí)段的影響力評分及排名，如表2所示。考慮到微博轉(zhuǎn)發(fā)會(huì)使微博的影響擴(kuò)散，相對于評論其影響力更大，因此公式（8）中α取值為0．4，β取值為0．6．從以上分析結(jié)果可以看出，在實(shí)驗(yàn)識別出的2011年12月8日到2011年12月14日的6個(gè)話題中，影響力從大到小依次是江蘇豐縣校車事故、南京大屠殺紀(jì)念日、韓國海警被刺事件、電影《金陵十三釵》即將上映、廣東陸豐烏坎村群體事件、雙子座流星雨爆發(fā)。

（四）效果驗(yàn)證話題識別與跟蹤的效果一般使用準(zhǔn)確率和召回率兩個(gè)參數(shù)來衡量，公式如下：A表示已提取出的與話題相關(guān)內(nèi)容，B表示已提取出的與話題不相關(guān)內(nèi)容，C表示未提取出的與話題相關(guān)內(nèi)容。在全部文本數(shù)據(jù)中，與話題相關(guān)的數(shù)目為A＋C，而被判定與話題相關(guān)的數(shù)目為A＋B。召回率和精度是不可能兩全其美。當(dāng)召回率較高時(shí)，精度反而降低；反之精度高時(shí)，召回率就會(huì)有所降低。因此，本文用這兩個(gè)度量值融合而成的一個(gè)度量值F來衡量這個(gè)效果。F值公式如下：實(shí)驗(yàn)以“召回率”、“準(zhǔn)確率”驗(yàn)證熱點(diǎn)話題發(fā)現(xiàn)效果，根據(jù)公式（9）、（10）、（11）計(jì)算出每個(gè)話題的召回率與準(zhǔn)確率，如表3所示。從表3可以看出，6個(gè)熱點(diǎn)話題召回率從高到低依次為：韓國海警被刺事件，江蘇豐縣校車事故，南京大屠殺周年紀(jì)念，雙子座流星雨，陸豐烏坎村群體事件，電影《金陵十三釵》話題，各類話題召回率均較高。相反，各類話題準(zhǔn)確率均較低，最高為雙子座流星雨，僅為0．769，最低為廣東陸豐群體事件，僅為0．641。聚類準(zhǔn)確率低與微博內(nèi)容零散、談?wù)撛掝}范圍極其廣泛有關(guān)，即話題聚類時(shí)噪聲數(shù)據(jù)太多，導(dǎo)致β值較大。實(shí)驗(yàn)表明微博熱點(diǎn)話題發(fā)現(xiàn)的“召回率”較高而準(zhǔn)確率較低，這與微博內(nèi)容的不規(guī)范性、隨意性等特點(diǎn)有關(guān)。從綜合衡量召回率和準(zhǔn)確率的F值來看，熱點(diǎn)識別取得了良好的效果。盡管微博內(nèi)容存在一定的不規(guī)范和隨意性，但從實(shí)證分析中可以看到，聚類所選取出的6類熱點(diǎn)話題F值均保持在0．75以上。

四、結(jié)論

本文借鑒TDT技術(shù)，設(shè)計(jì)了一套中文微博熱點(diǎn)話題挖掘流程，并利用一段時(shí)間內(nèi)的少量新浪微博數(shù)據(jù)進(jìn)行熱點(diǎn)發(fā)掘?qū)嵶C研究。該流程可以使微博站點(diǎn)外部用戶利用少量微博數(shù)據(jù)便能挖掘微博熱點(diǎn)，以滿足其監(jiān)控輿情或發(fā)現(xiàn)商機(jī)的需要。本文主要的創(chuàng)新工作有以下兩點(diǎn)：第一，將識別熱點(diǎn)話題的主流技術(shù)TDT運(yùn)用于中文微博平臺，同時(shí)還在流程設(shè)計(jì)中結(jié)合了中文微博的特性。第二，微博平臺往往以單一的微博數(shù)量指標(biāo)來衡量話題熱度，而本文則提出了以話題影響力的大小來評判話題熱度。由于新浪爬蟲程序爬取的數(shù)據(jù)有限，因而本文僅限于對能收集到的數(shù)據(jù)進(jìn)行研究，實(shí)證結(jié)果難免有一定的局限。另外，微博內(nèi)容較雜亂，噪聲信息較多，話題聚類效果也有待提高，因此相關(guān)聚類算法的改進(jìn)也是未來研究的方向。話題影響力驗(yàn)證方法還需完善，后期可以對熱點(diǎn)話題進(jìn)行動(dòng)態(tài)跟蹤，以發(fā)現(xiàn)熱點(diǎn)話題的整體趨勢變化。

作者：何躍帥馬戀馮韻單位：四川大學(xué)商學(xué)院

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

中文微博熱點(diǎn)話題挖掘范文

擴(kuò)展閱讀

推薦期刊

中文自修

滇中文化

中文自學(xué)指導(dǎo)

中文信息

精品推薦