亚洲永久免费网站,最近中文版字幕在线观看,伊人久久婷婷丁香六月综合基地

本站小編為你精心準(zhǔn)備了基于聚類(lèi)的內(nèi)容分類(lèi)方法參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。

基于聚類(lèi)的內(nèi)容分類(lèi)方法

《電腦與信息技術(shù)雜志》2014年第三期

1基于改進(jìn)的K-Means聚類(lèi)算法的內(nèi)容分類(lèi)方法

1.1K-Means聚類(lèi)算法K-Means算法首先選取初始聚類(lèi)中心，然后對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi)，最后計(jì)算每個(gè)聚類(lèi)的平均值，在每次循環(huán)中不斷的調(diào)整聚類(lèi)中心，最終使類(lèi)內(nèi)對(duì)象相似性最大，類(lèi)間對(duì)象相似性最小[7]。其具體的算法步驟有如下五步:（1）從數(shù)據(jù)樣本中隨機(jī)選取K個(gè)對(duì)象，作為初始聚類(lèi)中心；（2）計(jì)算其他數(shù)據(jù)到初始聚類(lèi)中心的距離，將其與距其最近的聚類(lèi)中心劃為一類(lèi)；（3）對(duì)于每一類(lèi)，計(jì)算所有對(duì)象的均值，選取最接近均值的點(diǎn)為新的聚類(lèi)中心；（4）重新對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)；（5）若聚類(lèi)中心及對(duì)象不再變化時(shí)，即達(dá)到最終聚類(lèi)狀態(tài)時(shí)，結(jié)束。否則轉(zhuǎn)至第3步。傳統(tǒng)的K-Means算法對(duì)密集海量數(shù)據(jù)可以達(dá)到較好的效果[8]，但仍然具有以下三個(gè)問(wèn)題：（1）算法中的K值為根據(jù)經(jīng)驗(yàn)值設(shè)定，忽略了實(shí)際數(shù)據(jù)本身的分部特點(diǎn)和聚類(lèi)數(shù)目，有可能會(huì)導(dǎo)致最終聚類(lèi)結(jié)果不準(zhǔn)確；（2）傳統(tǒng)的K-Means算法中初始聚類(lèi)中心為隨機(jī)選取，有可能會(huì)與實(shí)際聚類(lèi)中心又較大偏差，最終導(dǎo)致聚類(lèi)結(jié)果的隨機(jī)性和不穩(wěn)定性；（3）由于采用迭代更新的方法，當(dāng)初始聚類(lèi)中心落在局部最小值附近時(shí)容易產(chǎn)生局部最優(yōu)解。

1.2改進(jìn)的K-Means算法針對(duì)傳統(tǒng)的K-Means算法的不足，本文針對(duì)K值以及初始聚類(lèi)中心的選取作出改進(jìn)，提出了一種改進(jìn)的K-Means算法。本算法的主要思想是在選取K值時(shí)，首先對(duì)待聚類(lèi)的樣本進(jìn)行初步劃分，將其劃分的類(lèi)數(shù)作為K，并在選取的類(lèi)中以基于密度的方法選取密度最大的對(duì)象作為初始聚類(lèi)中心，然后結(jié)合標(biāo)準(zhǔn)的K-Means算法，完成對(duì)聚類(lèi)樣本的分類(lèi)。具體來(lái)講，本算法主要分為兩個(gè)階段：第一階段為初始化階段，在此階段，通過(guò)計(jì)算類(lèi)間平均距離的方法對(duì)樣本進(jìn)行簡(jiǎn)單劃分，將其初始化為K個(gè)初始類(lèi)，并計(jì)算各類(lèi)中每個(gè)對(duì)象的密度，選取密度最大的對(duì)象作為初始聚類(lèi)中心；第二階段為標(biāo)準(zhǔn)的K-Means算法階段，在此階段采用標(biāo)準(zhǔn)的K-Means算法，使用第一階段產(chǎn)生的K值和初始聚類(lèi)中心進(jìn)行聚類(lèi)劃分，最終得到完整的分類(lèi)。為便于描述，本文采用二維空間模型對(duì)本文算法進(jìn)行描述，其理論推演至多維模型與其類(lèi)似。下面以二維空間的樣本分布模型為例闡述如何通過(guò)類(lèi)間平均距離對(duì)樣本進(jìn)行簡(jiǎn)單劃分。在二維樣本空間X={x1，x2，x3…xn}中，記樣本xn的坐標(biāo)為（xnx，xny），每一個(gè)樣本對(duì)象距離與其他對(duì)象的距離可以通過(guò)它們?cè)赬軸和Y軸的映射坐標(biāo)來(lái)表示，如樣本x1與x2的橫向距離為|x1x-x2x|，縱向距離為|x1y-x2y|。因此，對(duì)于樣本空間X，其平均橫向類(lèi)間樣本距離dx與平均縱向類(lèi)間樣本距離dy分別為|xnx-x1x|（/p－1）與|yny-y1y|（/q－1），其中p為橫坐標(biāo)不重復(fù)的樣本個(gè)數(shù)，q為縱坐標(biāo)不重復(fù)的樣本個(gè)數(shù)，xnx、x1x為x軸方向距離最遠(yuǎn)的兩個(gè)點(diǎn)的橫坐標(biāo)，yny、y1y為y軸方向距離最遠(yuǎn)的兩個(gè)點(diǎn)的縱坐標(biāo)。具體的樣本劃分方法主要有以下幾步：（1）首先計(jì)算出樣本對(duì)象的平均橫向和縱向樣本距離dx、dy；（2）分別從橫向與縱向依次求出每?jī)蓚€(gè)對(duì)象之間的樣本距離，若其樣本距離小于d<￡dx，則該對(duì)象應(yīng)位于同一類(lèi)別，其中￡為閾值，可用于調(diào)整樣本分類(lèi)精度，￡應(yīng)取1-2之間的任意值，￡值越小，分類(lèi)精度越大；朱青等：基于聚類(lèi)的內(nèi)容分類(lèi)方法的研究與應(yīng)用分析•5•（3）對(duì)于橫向與縱向同時(shí)在二維空間中作出劃分之后，屬于同一劃分區(qū)域的類(lèi)別即為初始化之后的類(lèi)別。如圖1、圖2所示，其中圖1為初始樣本空間，圖2為劃分之后的樣本空間。如圖2所示，初始的9個(gè)樣本空間被初步劃分為3個(gè)區(qū)域，即3個(gè)類(lèi)別。在對(duì)樣本進(jìn)行劃分之后，K值已經(jīng)確定，接下來(lái)在各個(gè)劃分區(qū)域通過(guò)計(jì)算每個(gè)樣本的密度來(lái)確定初始聚類(lèi)中心。本文中通過(guò)如下方法計(jì)算樣本Xn的密度ρXn：（1）計(jì)算各類(lèi)別中樣本的平均距離，即平均歐幾里得幾何距離，如計(jì)算樣本x1的平均歐幾里得幾何距離，其計(jì)算公式為d＝(d2+…+dt)（/t-1），其中t為該區(qū)域中樣本的個(gè)數(shù)，di為該樣本x1與所在區(qū)域中點(diǎn)xi的距離。2）以樣本的平均歐幾里得幾何距離為半徑，對(duì)于類(lèi)中的每一個(gè)樣本畫(huà)圓，計(jì)算該圓中包括的樣本個(gè)數(shù)M；3）樣本Xn的密度ρXn即為以Xn為圓心，以d為半徑的圓中的樣本個(gè)數(shù)與圓的面積之比，即：ρXn=M/πd2。各類(lèi)別種的樣本密度計(jì)算完畢之后，選取密度最大的樣本為各類(lèi)別的初始聚類(lèi)中心，之后利用標(biāo)準(zhǔn)K-Means算法進(jìn)行聚類(lèi)劃分，即可得到最終分類(lèi)結(jié)果。

1.3基于改進(jìn)K-Means算法的內(nèi)容分類(lèi)方法基于改進(jìn)的K-Means算法，本文所提出的內(nèi)容分類(lèi)的方法的具體步驟有如下4步：（1）提取內(nèi)容特征，采取向量空間模型來(lái)表示所要分類(lèi)的內(nèi)容，采用向量集合X表示所有內(nèi)容；（2）對(duì)于內(nèi)容集合X中的任一內(nèi)容，采用如3.2節(jié)所描述的方法計(jì)算其樣本間距離，并進(jìn)行初始劃分；（3）計(jì)算各個(gè)樣本類(lèi)之中的樣本密度，使樣本密度最大的樣本為初始聚類(lèi)中心；（4）以第2步和第3步計(jì)算出來(lái)的K值和初始聚類(lèi)中心為參數(shù)，運(yùn)行標(biāo)準(zhǔn)K-Means算法，對(duì)所有樣本進(jìn)行分類(lèi)。通過(guò)上述4個(gè)步驟，可以實(shí)現(xiàn)對(duì)內(nèi)容的有效分類(lèi)。

2內(nèi)容分類(lèi)方法的應(yīng)用研究

內(nèi)容分類(lèi)作為內(nèi)容管理的重要手段，可以應(yīng)用在各個(gè)方面。本文針對(duì)內(nèi)容管理的特點(diǎn)，結(jié)合聚類(lèi)分析分類(lèi)類(lèi)別的無(wú)目標(biāo)性，能夠有效組織內(nèi)容管理系統(tǒng)中的數(shù)據(jù)，實(shí)現(xiàn)對(duì)數(shù)據(jù)處理的高效性，成為一種高效的內(nèi)容管理和分類(lèi)方法，可應(yīng)用于多種場(chǎng)景。（1）在內(nèi)容的展示方面，為了方便用戶(hù)對(duì)搜索結(jié)果的瀏覽，采用聚類(lèi)算法對(duì)搜索結(jié)果文檔進(jìn)行聚類(lèi)，根據(jù)分組情況，輸出每個(gè)分組的描述信息，分類(lèi)呈現(xiàn)給客戶(hù)[9]，使客戶(hù)縮小檢索范圍，快速定位到所感興趣的主題，同時(shí)為用戶(hù)的二次搜索提供信息。（2）在內(nèi)容[10]方面，內(nèi)容管理系統(tǒng)中的個(gè)性化設(shè)計(jì)[11]是其突出的特點(diǎn)，此內(nèi)容管理方法在個(gè)性化方面不僅表現(xiàn)為可以使用戶(hù)自行定義操作界面，而且可以對(duì)不同用戶(hù)提供感興趣的內(nèi)容推薦，提高用戶(hù)體驗(yàn)。通過(guò)用戶(hù)提交興趣方向或者根據(jù)用戶(hù)的歷史訪(fǎng)問(wèn)挖掘用戶(hù)的興趣。通過(guò)對(duì)用戶(hù)感興趣的文檔進(jìn)行聚類(lèi)分析，發(fā)現(xiàn)用戶(hù)的興趣，把用戶(hù)分為不同的興趣小組，根據(jù)用戶(hù)的興趣，把聚類(lèi)后的文檔快速給相應(yīng)興趣小組的用戶(hù)。（3）在新聞的方面，自動(dòng)根據(jù)不同主題，通過(guò)聚類(lèi)提供最近相關(guān)信息的自動(dòng)匯編。便于用戶(hù)對(duì)同一主題信息的瀏覽，實(shí)現(xiàn)對(duì)新聞信息的歸類(lèi)呈現(xiàn)和管理。（4）在對(duì)海量數(shù)據(jù)進(jìn)行有效的管理方面，采用聚類(lèi)分析算法，改善文檔分類(lèi)結(jié)果，便于對(duì)文檔的歸類(lèi)組織、管理、存儲(chǔ)。

3結(jié)論

本文針對(duì)傳統(tǒng)的K-Means算法的不足進(jìn)行了相應(yīng)的改進(jìn)，提高了K值和初始聚類(lèi)中心選擇的準(zhǔn)確性，并在此基礎(chǔ)上提出了基于改進(jìn)的K-Means聚類(lèi)算法的內(nèi)容分類(lèi)方法。這種基于聚類(lèi)算法的內(nèi)容分類(lèi)方法比傳統(tǒng)的基于固定分類(lèi)的內(nèi)容分類(lèi)方法更能刻畫(huà)內(nèi)容的具體特征，能夠?qū)崿F(xiàn)對(duì)內(nèi)容的有效分類(lèi)組織，可以靈活的應(yīng)用在包括內(nèi)容、內(nèi)容搜索和內(nèi)容展示等各個(gè)方面，具有十分重要的研究意義。

作者：朱青牛志慧張曉凌單位：北京工業(yè)大學(xué)軟件學(xué)院

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

基于聚類(lèi)的內(nèi)容分類(lèi)方法范文

擴(kuò)展閱讀

精品推薦