在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 加權粗糙樸素貝葉斯算法范文

加權粗糙樸素貝葉斯算法范文

本站小編為你精心準備了加權粗糙樸素貝葉斯算法參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

加權粗糙樸素貝葉斯算法

《計算機應用研究雜志》2015年第五期

1相關研究

朱敏等在文獻[7]中采用粗糙集來生成樸素貝葉斯網絡預測模型的網絡結構和各節點的條件概率表,有效去除了樣本數據集中的冗余屬性,使得樸素貝葉斯算法更加簡潔有效;孫艷等在文獻[8]中首先利用粗糙集技術得到網頁分類決策的屬性約簡表,然后通過樸素貝葉斯算法進行分類過濾,降低了系統開銷,且過濾準確度有明顯提高;王純子等在文獻[9]中在基于貝葉斯理論的網絡攻防對峙模型中引入粗糙集技術,提高了該模型對冗余信息的處理性能,有效縮減了博弈分析中策略空間的規模。在上述文獻中,通過在貝葉斯算法中引入粗糙集技術,有效消除了冗余屬性,降低了計算復雜度,并使貝葉斯算法的分類準確度大幅上升,但是它們局限于在屬性約簡后直接使用樸素貝葉斯算法對樣本集進行分類,而沒有嘗試將粗糙集技術和加權樸素貝葉斯模型進行結合。Orhan等人在文獻[10]中采用最小二乘法確定目標函數中的權向量,并以該權向量為依據,為各條件屬性賦予相應的權值,使算法的復雜度有所簡化,但同時降低了貝葉斯分類器的準確性;鄧維彬等在文獻[11]中將條件屬性與決策屬性之間的互信息作為衡量條件屬性在分類過程中重要程度的標準,并以兩者之間互信息的數學期望作為條件屬性的權值,在一定程度上優化了樸素貝葉斯分類器的分類性能;WuJ等在文獻[12]中采用MarkHall所提出的加權思想作為目標函數,并利用差分進化法獲取最優權向量,最終建立加權樸素貝葉斯模型,使貝葉斯分類器的分類準確性有所提升;TaheriS等在文獻[13]中通過基于準割線法的局部優化技術為條件屬性確定最優權值,實驗結果顯示最終的分類性能較之樸素貝葉斯模型有一定程度的提高;EndoT等在文獻[14]中,在以往將Shannon熵做為權值設定標準的加權樸素貝葉斯模型基礎上對其進行擴展,改為以包含參數的Renyi熵來確定條件屬性的最優權值,并通過對參數的調控對分類精確度進行優化,為加權樸素貝葉斯模型的研究提供了一個新的思路。

上述加權樸素貝葉斯模型均在不同程度上提高了樸素貝葉斯算法的分類性能,但是該類傳統的加權方法局限于將權值作為對條件屬性預測能力的描述,權值的大小完全取決于衡量條件屬性的權重時所選擇的方法,這在某些情況下會嚴重影響到樸素貝葉斯方法最終的分類準確性。例如:假設兩個條件屬性ix和i1x之間具有強烈的相互作用,不滿足條件獨立性假設,為了最大程度上保證樸素貝葉斯方法的準確率,遵循“加權平均”的思想,應該為ix和i1x賦予較低的權值,將它們在分類過程中的影響進行相應降低;但是若ix和i1x在某種衡量權重的方法(例如互信息)的度量中得值均較高,遵照“預測能力強則權值較高”的原則,它們依然會被賦予較高的權值,其在分類過程中的影響依然會被相應放大,反而對最終分類結果的準確性增加負面影響。因此,不同于傳統加權方法“預測能力越強權值越高”的設定標準,本文認為權值最重要的作用不在于對條件屬性在分類過程中的預測能力加以描述,并據此對其在分類過程中的作用進行相應放大或縮小,而在于當條件屬性之間存在違反條件獨立性假設的情況時,最大程度上減少該類情況對分類準確性的影響,確保樸素貝葉斯分類器的分類性能。綜上所述,本文提出一種新型加權粗糙樸素貝葉斯方法,首先利用粗糙集技術對待分類樣本進行屬性約簡,獲得彼此相互獨立的核心屬性;然后基于約簡后得到的最簡屬性子集,以整個測試數據集|D|作為出發點,以最大化數據集的條件似然估計為標準,從整體層面上對條件屬性設定最優權值。最終獲得一種新型加權粗糙樸素貝葉斯模型對數據集中所包含的對象進行分類判斷。

2粗糙集理論及信息約簡

2.1粗糙集相關定義定義1粗糙集理論中一個知識系統S可以表示為SU,R,V,F,其中U是對象的集合,也稱為論域,RCD是屬性集合,子集C和D分別稱為條件屬性集和決策屬性集,{|}aVVaC是屬性值的集合,aV表示屬性a的值域,f:URV是一個信息函數,指定U中每一個對象x的屬性值.

2.2基于粗糙集的屬性約簡設知識系統SU,R,V,F中RCD,則知識系統S可以通過TU,R,CD加以表述,TU,R,CD稱作2.2基于粗糙集的屬性約簡設知識系統SU,R,V,F中RCD,則知識系統S可以通過TU,R,CD加以表述,TU,R,CD稱作決策系統,簡稱決策表。如表1所示,就是決策表形式的一個知識表達系統。如果從分類系統的條件屬性集中去掉某些屬性并不影響分類效果,則稱這些屬性為冗余屬性,可以將其從屬性集中刪除。而屬性約簡就是從原有的屬性集出發,以分類效果為依據消除冗余屬性,最終獲取分類系統的最簡屬性子集。本文通過Skowron差別矩陣和屬性選擇的約簡方法[16]對測試數據集進行屬性約簡.

3樸素貝葉斯分類模型

利用粗糙集技術對決策表進行屬性約簡后,條件屬性集的維度得到大幅降低。根據前文對決策表約簡后得到的屬性約簡表,進一步通過新型加權方法為條件屬性賦予相應的權值,最終獲取一種新型加權粗糙樸素貝葉斯模型對數據集所包含的對象進行分類。

3.1樸素貝葉斯分類算法樸素貝葉斯分類算法以貝葉斯決策理論為基礎,在不完全情報下,對部分未知的狀態用主觀概率估計,然后用貝葉斯公示對發生概率進行修正,最后再利用期望值和修正概率做出最優決策。

3.2加權樸素貝葉斯分類模型樸素貝葉斯算法以條件獨立性假設為基礎,但該假設在實際應用中通常并不成立,因此有學者提出了條件屬性權重法,即為不同的條件屬性分別賦予對應的權值,將樸素貝葉斯模型擴展為加權樸素貝葉斯模型.在加權樸素貝葉斯模型中,最關鍵的步驟在于如何確定條件屬性所對應的權值。傳統的加權方法以單個的條件屬性作為出發點,以條件屬性預測能力的大小為標準對條件屬性設定權值。如本文相關研究部分所述,該類方法在某些情況下反而會對最終的分類結果產生負面影響。因此,本文在為條件屬性設定最優權值的過程中,不再著眼于根據條件屬性預測能力的大小對其在分類過程中的作用進行相應放大或縮小,而是以整個數據集|D|作為出發點,以最大化數據集的條件似然估計為標準對條件屬性設定權值,從最大程度上減小由于條件屬性不滿足條件獨立性假設對分類結果造成的不良影響。為條件屬性計算最優權值的大致流程如下.

4實驗結果與分析

樸素貝葉斯分類器(NaïveBayesianClassfier,NBC)在垃圾郵件過濾、模式識別、入侵檢測等多個領域被廣泛應用,為了驗證本文所提出的新型加權粗糙樸素貝葉斯方法的正確性和實用性,本文選擇在垃圾郵件過濾領域對該方法加以實際應用,并對實驗結果進行相關分析。本文所有實驗均在WindowsXP下,硬件配置為Pentium42.3GHzCPU,內存4GB,硬盤500GB,以MATLAB8.0為實驗環境。郵件樣本來自中國教育和科研計算機網緊急響應組(CCERT)提供的中文郵件樣本集(CDSCE,CCERTDataSetsofChineseEmails),該樣本集包含正常郵件9272封,垃圾郵件25088封。從中隨機抽取5500封郵件構建郵件樣本庫,其中包含垃圾郵件3000封,正常郵件2500封。實驗方法采用“十字交叉驗證法”,并以召回率、正確率和精確率作為過濾器評價標準.綜合上述實驗結果可知,(1)使用粗糙集技術對郵件樣本進行屬性約簡后,在三個評價標準上NB算法都可以更快地達到峰值,且曲線變化平緩,無明顯波動。證明基于粗糙集的屬性約簡在不影響最終分類結果的前提下去除了冗余屬性和噪聲干擾,優化了分類性能;(2)MIWNB和REWNB算法在召回率上分別比NB算法提高了1.63%和0.9%,在精確率上分別比NB算法提高了0.61%和1.87%,在準確率上分別比NB算法提高了1.32%和1.85%。就分類性能而言,以條件屬性的預測能力為標準設定權值的加權樸素貝葉斯模型只是略優于樸素貝葉斯模型;(3)RSBN和RSABD算法同樣采用了粗糙集技術和樸素貝葉斯方法相結合的策略,但它們局限于在屬性約簡后直接使用樸素貝葉斯算法對樣本集進行分類,而沒有嘗試將樸素貝葉斯模型進行加權處理。在召回率上比MIWNB和REWNB算法的平均值分別提高了1.3%和0.53%;在精確率上比MIWNB和REWNB算法的平均值分別提高了0.71%和1.41%;在準確率上比MIWNB和REWNB算法的平均值分別提高了1.56%和1.38%。雖然相對于MIWNB和REWNB算法,在分類性能上有所提升,但總體提升幅度不大;(4)本文提出的NWRNB算法由于以最大化數據集的條件似然估計為標準,得到的(近似)全局最優權向量更趨合理,在召回率上比NB算法提高了5.5%,比MIWNB和REWNB算法的平均值提高了6.08%,比RSBN和RSABD算法的平均值提高了5.02%;在精確率上比NB提高了7.32%,比MIWNB和REWNB算法的平均值提高了4.23%,比RSBN和RSABD算法的平均值提高了3.35%;在準確率上比NB算法提高了6.42%,比MIWNB和REWNB算法的平均值提高了4.84%,比RSBN和RSABD算法的平均值提高了3.37%;極大地提高了樸素貝葉斯模型的分類性能。

5結束語

本文針對待分類數據集中存在冗余屬性以及傳統加權樸素貝葉斯模型沒有從整體層面上考慮權值對最終分類結果的影響的問題,提出一種新型加權粗糙樸素貝葉斯分類方法。在利用粗糙集技術對樣本進行屬性約簡,獲取最優條件屬性子集的基礎上,以最大化數據集的對數條件似然估計為標準設定權值,構造加權樸素貝葉斯分類模型。通過在垃圾郵件過濾領域對該方法進行驗證,樸素貝葉斯分類器的分類效率得到有效提高,而且分類性能更加優越。證明本文所提出的方法不僅可以在不影響最終分類結果的前提下消除冗余屬性,而且新型加權方法所獲取的(近似)最優權值較之傳統加權方法更加合理。除了條件似然函數(Conditionalloglikehood)以外,其它的一些函數也可以作為獲取(近似)全局最優權向量的目標函數。比如在支持向量機(SVM)中常用的鉸鏈損失函數(HingeLoss)以及在邏輯回歸算法(LogicalisticRegression)中常用的對數損失函數(LogLoss)等,而且這些函數均有其特有的優點,因此,下一步的研究工作將是通過上述方法獲取(近似)全局最優權向量,并與條件似然函數進行對比。

作者:王輝 黃自威 劉淑芬 單位:河南理工大學 計算機科學與技術學院 吉林大學 計算機科學與技術學院

主站蜘蛛池模板: 亚洲欧美一区二区三区麻豆 | 国产男人的天堂 | 羞羞的动漫免费出处 | 男女乱配视频免费观看 | a级午夜 | 免费黄色在线视频 | 自拍偷拍欧美 | 丁香五色月 | 99热国产在线 | 精品国产亚洲一区二区三区 | 性天堂网 | 尤物精品视频一区二区三区 | 四虎影院在线免费 | 蜜桃视频一区 | 亚洲欧美久久精品 | 久热最新视频 | 亚洲欧美国产一区二区三区 | 亚洲黄色在线观看视频 | 在线免费观看色 | 亚洲精品国产成人99久久 | 亚洲成av人影片在线观看 | 国产一区二区精品久久 | 久久精品影院一区二区三区 | 亚洲图片在线播放 | 国产伦子系列麻豆精品 | 色网站免费观看 | 在线免费观看羞羞视频 | 亚洲精品久 | 波多野结衣高清在线播放 | 精品福利在线 | 亚洲欧美色一区二区三区 | 小视频免费观看 | 日韩精品久久一区二区三区 | 羞羞在线 | 欧美一级久久久久久久大 | 欧美四虎精品二区免费 | 一区二区三区免费观看 | 亚洲成人精品久久 | 国产精品电影在线观看 | 久久免费高清视频 | 一区二区三区高清不卡 |