本站小編為你精心準(zhǔn)備了基于聚類(lèi)的內(nèi)容分類(lèi)方法參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。
《電腦與信息技術(shù)雜志》2014年第三期
1基于改進(jìn)的K-Means聚類(lèi)算法的內(nèi)容分類(lèi)方法
1.1K-Means聚類(lèi)算法K-Means算法首先選取初始聚類(lèi)中心,然后對(duì)所有數(shù)據(jù)點(diǎn)進(jìn)行分類(lèi),最后計(jì)算每個(gè)聚類(lèi)的平均值,在每次循環(huán)中不斷的調(diào)整聚類(lèi)中心,最終使類(lèi)內(nèi)對(duì)象相似性最大,類(lèi)間對(duì)象相似性最小[7]。其具體的算法步驟有如下五步:(1)從數(shù)據(jù)樣本中隨機(jī)選取K個(gè)對(duì)象,作為初始聚類(lèi)中心;(2)計(jì)算其他數(shù)據(jù)到初始聚類(lèi)中心的距離,將其與距其最近的聚類(lèi)中心劃為一類(lèi);(3)對(duì)于每一類(lèi),計(jì)算所有對(duì)象的均值,選取最接近均值的點(diǎn)為新的聚類(lèi)中心;(4)重新對(duì)數(shù)據(jù)進(jìn)行聚類(lèi);(5)若聚類(lèi)中心及對(duì)象不再變化時(shí),即達(dá)到最終聚類(lèi)狀態(tài)時(shí),結(jié)束。否則轉(zhuǎn)至第3步。傳統(tǒng)的K-Means算法對(duì)密集海量數(shù)據(jù)可以達(dá)到較好的效果[8],但仍然具有以下三個(gè)問(wèn)題:(1)算法中的K值為根據(jù)經(jīng)驗(yàn)值設(shè)定,忽略了實(shí)際數(shù)據(jù)本身的分部特點(diǎn)和聚類(lèi)數(shù)目,有可能會(huì)導(dǎo)致最終聚類(lèi)結(jié)果不準(zhǔn)確;(2)傳統(tǒng)的K-Means算法中初始聚類(lèi)中心為隨機(jī)選取,有可能會(huì)與實(shí)際聚類(lèi)中心又較大偏差,最終導(dǎo)致聚類(lèi)結(jié)果的隨機(jī)性和不穩(wěn)定性;(3)由于采用迭代更新的方法,當(dāng)初始聚類(lèi)中心落在局部最小值附近時(shí)容易產(chǎn)生局部最優(yōu)解。
1.2改進(jìn)的K-Means算法針對(duì)傳統(tǒng)的K-Means算法的不足,本文針對(duì)K值以及初始聚類(lèi)中心的選取作出改進(jìn),提出了一種改進(jìn)的K-Means算法。本算法的主要思想是在選取K值時(shí),首先對(duì)待聚類(lèi)的樣本進(jìn)行初步劃分,將其劃分的類(lèi)數(shù)作為K,并在選取的類(lèi)中以基于密度的方法選取密度最大的對(duì)象作為初始聚類(lèi)中心,然后結(jié)合標(biāo)準(zhǔn)的K-Means算法,完成對(duì)聚類(lèi)樣本的分類(lèi)。具體來(lái)講,本算法主要分為兩個(gè)階段:第一階段為初始化階段,在此階段,通過(guò)計(jì)算類(lèi)間平均距離的方法對(duì)樣本進(jìn)行簡(jiǎn)單劃分,將其初始化為K個(gè)初始類(lèi),并計(jì)算各類(lèi)中每個(gè)對(duì)象的密度,選取密度最大的對(duì)象作為初始聚類(lèi)中心;第二階段為標(biāo)準(zhǔn)的K-Means算法階段,在此階段采用標(biāo)準(zhǔn)的K-Means算法,使用第一階段產(chǎn)生的K值和初始聚類(lèi)中心進(jìn)行聚類(lèi)劃分,最終得到完整的分類(lèi)。為便于描述,本文采用二維空間模型對(duì)本文算法進(jìn)行描述,其理論推演至多維模型與其類(lèi)似。下面以二維空間的樣本分布模型為例闡述如何通過(guò)類(lèi)間平均距離對(duì)樣本進(jìn)行簡(jiǎn)單劃分。在二維樣本空間X={x1,x2,x3…xn}中,記樣本xn的坐標(biāo)為(xnx,xny),每一個(gè)樣本對(duì)象距離與其他對(duì)象的距離可以通過(guò)它們?cè)赬軸和Y軸的映射坐標(biāo)來(lái)表示,如樣本x1與x2的橫向距離為|x1x-x2x|,縱向距離為|x1y-x2y|。因此,對(duì)于樣本空間X,其平均橫向類(lèi)間樣本距離dx與平均縱向類(lèi)間樣本距離dy分別為|xnx-x1x|(/p-1)與|yny-y1y|(/q-1),其中p為橫坐標(biāo)不重復(fù)的樣本個(gè)數(shù),q為縱坐標(biāo)不重復(fù)的樣本個(gè)數(shù),xnx、x1x為x軸方向距離最遠(yuǎn)的兩個(gè)點(diǎn)的橫坐標(biāo),yny、y1y為y軸方向距離最遠(yuǎn)的兩個(gè)點(diǎn)的縱坐標(biāo)。具體的樣本劃分方法主要有以下幾步:(1)首先計(jì)算出樣本對(duì)象的平均橫向和縱向樣本距離dx、dy;(2)分別從橫向與縱向依次求出每?jī)蓚€(gè)對(duì)象之間的樣本距離,若其樣本距離小于d<£dx,則該對(duì)象應(yīng)位于同一類(lèi)別,其中£為閾值,可用于調(diào)整樣本分類(lèi)精度,£應(yīng)取1-2之間的任意值,£值越小,分類(lèi)精度越大;朱青等:基于聚類(lèi)的內(nèi)容分類(lèi)方法的研究與應(yīng)用分析•5•(3)對(duì)于橫向與縱向同時(shí)在二維空間中作出劃分之后,屬于同一劃分區(qū)域的類(lèi)別即為初始化之后的類(lèi)別。如圖1、圖2所示,其中圖1為初始樣本空間,圖2為劃分之后的樣本空間。如圖2所示,初始的9個(gè)樣本空間被初步劃分為3個(gè)區(qū)域,即3個(gè)類(lèi)別。在對(duì)樣本進(jìn)行劃分之后,K值已經(jīng)確定,接下來(lái)在各個(gè)劃分區(qū)域通過(guò)計(jì)算每個(gè)樣本的密度來(lái)確定初始聚類(lèi)中心。本文中通過(guò)如下方法計(jì)算樣本Xn的密度ρXn:(1)計(jì)算各類(lèi)別中樣本的平均距離,即平均歐幾里得幾何距離,如計(jì)算樣本x1的平均歐幾里得幾何距離,其計(jì)算公式為d=(d2+…+dt)(/t-1),其中t為該區(qū)域中樣本的個(gè)數(shù),di為該樣本x1與所在區(qū)域中點(diǎn)xi的距離。2)以樣本的平均歐幾里得幾何距離為半徑,對(duì)于類(lèi)中的每一個(gè)樣本畫(huà)圓,計(jì)算該圓中包括的樣本個(gè)數(shù)M;3)樣本Xn的密度ρXn即為以Xn為圓心,以d為半徑的圓中的樣本個(gè)數(shù)與圓的面積之比,即:ρXn=M/πd2。各類(lèi)別種的樣本密度計(jì)算完畢之后,選取密度最大的樣本為各類(lèi)別的初始聚類(lèi)中心,之后利用標(biāo)準(zhǔn)K-Means算法進(jìn)行聚類(lèi)劃分,即可得到最終分類(lèi)結(jié)果。
1.3基于改進(jìn)K-Means算法的內(nèi)容分類(lèi)方法基于改進(jìn)的K-Means算法,本文所提出的內(nèi)容分類(lèi)的方法的具體步驟有如下4步:(1)提取內(nèi)容特征,采取向量空間模型來(lái)表示所要分類(lèi)的內(nèi)容,采用向量集合X表示所有內(nèi)容;(2)對(duì)于內(nèi)容集合X中的任一內(nèi)容,采用如3.2節(jié)所描述的方法計(jì)算其樣本間距離,并進(jìn)行初始劃分;(3)計(jì)算各個(gè)樣本類(lèi)之中的樣本密度,使樣本密度最大的樣本為初始聚類(lèi)中心;(4)以第2步和第3步計(jì)算出來(lái)的K值和初始聚類(lèi)中心為參數(shù),運(yùn)行標(biāo)準(zhǔn)K-Means算法,對(duì)所有樣本進(jìn)行分類(lèi)。通過(guò)上述4個(gè)步驟,可以實(shí)現(xiàn)對(duì)內(nèi)容的有效分類(lèi)。
2內(nèi)容分類(lèi)方法的應(yīng)用研究
內(nèi)容分類(lèi)作為內(nèi)容管理的重要手段,可以應(yīng)用在各個(gè)方面。本文針對(duì)內(nèi)容管理的特點(diǎn),結(jié)合聚類(lèi)分析分類(lèi)類(lèi)別的無(wú)目標(biāo)性,能夠有效組織內(nèi)容管理系統(tǒng)中的數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)處理的高效性,成為一種高效的內(nèi)容管理和分類(lèi)方法,可應(yīng)用于多種場(chǎng)景。(1)在內(nèi)容的展示方面,為了方便用戶(hù)對(duì)搜索結(jié)果的瀏覽,采用聚類(lèi)算法對(duì)搜索結(jié)果文檔進(jìn)行聚類(lèi),根據(jù)分組情況,輸出每個(gè)分組的描述信息,分類(lèi)呈現(xiàn)給客戶(hù)[9],使客戶(hù)縮小檢索范圍,快速定位到所感興趣的主題,同時(shí)為用戶(hù)的二次搜索提供信息。(2)在內(nèi)容[10]方面,內(nèi)容管理系統(tǒng)中的個(gè)性化設(shè)計(jì)[11]是其突出的特點(diǎn),此內(nèi)容管理方法在個(gè)性化方面不僅表現(xiàn)為可以使用戶(hù)自行定義操作界面,而且可以對(duì)不同用戶(hù)提供感興趣的內(nèi)容推薦,提高用戶(hù)體驗(yàn)。通過(guò)用戶(hù)提交興趣方向或者根據(jù)用戶(hù)的歷史訪(fǎng)問(wèn)挖掘用戶(hù)的興趣。通過(guò)對(duì)用戶(hù)感興趣的文檔進(jìn)行聚類(lèi)分析,發(fā)現(xiàn)用戶(hù)的興趣,把用戶(hù)分為不同的興趣小組,根據(jù)用戶(hù)的興趣,把聚類(lèi)后的文檔快速給相應(yīng)興趣小組的用戶(hù)。(3)在新聞的方面,自動(dòng)根據(jù)不同主題,通過(guò)聚類(lèi)提供最近相關(guān)信息的自動(dòng)匯編。便于用戶(hù)對(duì)同一主題信息的瀏覽,實(shí)現(xiàn)對(duì)新聞信息的歸類(lèi)呈現(xiàn)和管理。(4)在對(duì)海量數(shù)據(jù)進(jìn)行有效的管理方面,采用聚類(lèi)分析算法,改善文檔分類(lèi)結(jié)果,便于對(duì)文檔的歸類(lèi)組織、管理、存儲(chǔ)。
3結(jié)論
本文針對(duì)傳統(tǒng)的K-Means算法的不足進(jìn)行了相應(yīng)的改進(jìn),提高了K值和初始聚類(lèi)中心選擇的準(zhǔn)確性,并在此基礎(chǔ)上提出了基于改進(jìn)的K-Means聚類(lèi)算法的內(nèi)容分類(lèi)方法。這種基于聚類(lèi)算法的內(nèi)容分類(lèi)方法比傳統(tǒng)的基于固定分類(lèi)的內(nèi)容分類(lèi)方法更能刻畫(huà)內(nèi)容的具體特征,能夠?qū)崿F(xiàn)對(duì)內(nèi)容的有效分類(lèi)組織,可以靈活的應(yīng)用在包括內(nèi)容、內(nèi)容搜索和內(nèi)容展示等各個(gè)方面,具有十分重要的研究意義。
作者:朱青牛志慧張曉凌單位:北京工業(yè)大學(xué)軟件學(xué)院