在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網(wǎng) 資料文庫 支持向量機空間聚類研究范文

支持向量機空間聚類研究范文

本站小編為你精心準(zhǔn)備了支持向量機空間聚類研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

支持向量機空間聚類研究

《地理與地理信息科學(xué)雜志》2014年第四期

1方法原理簡介

1.1空間自相關(guān)傳統(tǒng)的統(tǒng)計學(xué)方法建立在樣本獨立與大樣本假設(shè)的基礎(chǔ)上,由于空間數(shù)據(jù)的特殊性,其獨立性和大樣本假設(shè)常得不到滿足。空間統(tǒng)計學(xué)中的空間自相關(guān)技術(shù)很好地解決了經(jīng)典統(tǒng)計方法在空間數(shù)據(jù)應(yīng)用上的缺陷。空間自相關(guān)性使用全局和局部兩種指標(biāo)來度量,全局指標(biāo)用于探測整個研究區(qū)域的空間模式,用單一的值反映該區(qū)域的自相關(guān)程度;局部指標(biāo)計算每個空間單元與鄰近單元某一屬性的相關(guān)程度。由于全局指標(biāo)有時會掩蓋局部狀態(tài)的不穩(wěn)定性,因此在很多場合需要采用局部指標(biāo)來探測空間自相關(guān)。常用的計算空間自相關(guān)的方法有Moran′sI、Geary′sC、Getis、JoinCount等,本文基于Moran′I研究四川經(jīng)濟發(fā)展的空間格局。Moran′I分為全局Moran指數(shù)[14,15]和局部Moran指數(shù)[16]:全局Moran′sI從總體上反映了研究目標(biāo)的空間相關(guān)性,局部Moran′sI描述區(qū)域單元與其相鄰區(qū)域單元之間的空間集聚程度。

1.2支持向量機支持向量機在解決小樣本、非線性及高維模式識別中表現(xiàn)出如下特有的優(yōu)勢:1)SVM避開了從歸納到演繹的傳統(tǒng)過程,實現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡化了通常的分類和回歸等問題;2)SVM是專門針對有限情況的,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅是樣本數(shù)趨于無窮大時的最優(yōu)值;3)計算的復(fù)雜性取決于支持向量(SupportVector,SV)的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”;4)算法最終將轉(zhuǎn)化成為一個二次型尋優(yōu)問題,從理論上而言,得到的結(jié)果將是全局最優(yōu)解,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題,因而它具有很好的泛化性能和預(yù)測能力[22]。從本質(zhì)上看,SVM是一種監(jiān)督分類方法,在對數(shù)據(jù)進行分類時,必須要有一個已知樣本集訓(xùn)練SVM。在SVM的訓(xùn)練樣本選擇策略中,有隨機選樣策略、盒子類凸包樣本選擇方法[23]、Adaboost方法[24],也可以通過PCA或者NLM算法的分類結(jié)果選擇典型樣本。

1.3基于Moran的樣本集選擇通常,經(jīng)濟統(tǒng)計數(shù)據(jù)不包含已知正確分類的樣本集,而基于不同選擇策略的SVM分類結(jié)果差異很大,因此,樣本選擇策略是采用SVM分析經(jīng)濟統(tǒng)計數(shù)據(jù)的關(guān)鍵,其方法的正確與否直接影響到分析結(jié)果的正確性。在局部空間自相關(guān)中,滯后變量Wzi表示目標(biāo)觀測值相鄰區(qū)域的加權(quán)平均對偏離平均值的度量,zi為對觀察值x偏離平均值的度量。以(Wz,z)為坐標(biāo)點的Moran指數(shù)散點圖,常用來可視化研究局部空間不穩(wěn)定性。Moran指數(shù)散點圖的4個象限,分別對應(yīng)于區(qū)域單元與其鄰居之間4種類型的局部空間聯(lián)系形式:第一象限(H-H區(qū))代表高觀測值的區(qū)域單元被同是高值的區(qū)域所包圍的空間聯(lián)系形式;第二象限(L-H區(qū))代表低觀測值的區(qū)域單元被高值的區(qū)域所包圍的空間聯(lián)系形式;第三象限(L-L區(qū))代表低觀測值的區(qū)域單元被同是低值的區(qū)域所包圍的空間聯(lián)系形式;第四象限(H-L區(qū))代表高觀測值的區(qū)域單元被低值的區(qū)域所包圍的空間聯(lián)系形式。從區(qū)域經(jīng)濟發(fā)展角度看,經(jīng)濟發(fā)展中心對周邊存在很強的作用力,使得周邊區(qū)域經(jīng)濟也發(fā)展良好,這對應(yīng)于H-H類型;而經(jīng)濟落后區(qū)域由于地形、交通等區(qū)域條件的限制具有較強的集聚特征,從而對應(yīng)于L-L類型;經(jīng)濟發(fā)達區(qū)域的邊緣地帶由于自然條件或者政策性等問題制約了發(fā)展,屬于L-H類型;而在欠發(fā)達地區(qū),某些區(qū)縣旅游、礦產(chǎn)等資源優(yōu)越,發(fā)展具有一定優(yōu)勢,屬于H-L類型。這種多維經(jīng)濟統(tǒng)計數(shù)據(jù)的局部空間分布模式,可以揭示經(jīng)濟發(fā)達區(qū)域、較發(fā)達區(qū)域、欠發(fā)達區(qū)域及奇異點,并進一步提取經(jīng)濟發(fā)展中心和典型區(qū)域。這些典型區(qū)域在一定程度上可作為已知典型樣本集訓(xùn)練SVM分類過程,從而減少選樣過程的主觀性。由此可以建立空間自相關(guān)-SVM耦合的空間聚類方法,圖1顯示了基于Moran′sI的SVM聚類(Moran-SVM)的流程,其步驟為:1)運用空間自相關(guān)分析經(jīng)濟統(tǒng)計數(shù)據(jù)的PCA和NLM降維結(jié)果,到Moran指數(shù)散點圖和空間自相關(guān)顯著性分析圖;2)通過研究象限分布圖和顯著性分析圖,提取高顯著經(jīng)濟發(fā)達和不發(fā)達、較顯著經(jīng)濟發(fā)達等各種不同發(fā)展類型的典型區(qū)域;3)將典型區(qū)域作為已知樣本集導(dǎo)入SVM模型,得到聚類結(jié)果。

2應(yīng)用實例

2.1數(shù)據(jù)說明本文以2007年四川統(tǒng)計年鑒數(shù)據(jù)為例,對四川省區(qū)縣尺度的多維度經(jīng)濟統(tǒng)計數(shù)據(jù)進行分析。在行政單元為區(qū)縣的經(jīng)濟統(tǒng)計數(shù)據(jù)中,大量屬性維度的數(shù)據(jù)統(tǒng)計不完整。基于降維過程的維度應(yīng)盡量最大化及其可獲得性考慮,本文選擇統(tǒng)計年鑒中最能反映地區(qū)經(jīng)濟發(fā)展情況的18個屬性,分別是:國內(nèi)生產(chǎn)值(第一、第二、工業(yè)、第三產(chǎn)業(yè)和人均生產(chǎn)總值)、民營經(jīng)濟生產(chǎn)情況(第一、第二、工業(yè)、第三產(chǎn)業(yè)和人均民營經(jīng)濟增加值)、從業(yè)情況(從業(yè)人員、職工人數(shù)、人均工資)、地方財政(財政收入和支出)、農(nóng)林牧漁總產(chǎn)值、社會消費品零售總額、全社會固定資產(chǎn)投資。

2.2基于Moran′sI的SVM聚類筆者利用空間自相關(guān)對PCA和NLM的降維結(jié)果進行分析,得出四川經(jīng)濟統(tǒng)計數(shù)據(jù)的局部Moran′I散點圖及其顯著性分布圖(圖2-圖5),通過分析典型區(qū)域的局部空間聯(lián)系類型及其顯著性,提取出若干經(jīng)濟發(fā)展情況明確且典型的區(qū)縣,作為已知小樣本集導(dǎo)入SVM中進行分類。對PCA降維結(jié)果進行局部Moran指數(shù)分析,得到象限分布圖(圖2):成都周邊-東南區(qū)域沿線、攀枝花處于第一象限,即屬于H-H類型;第一象限周邊區(qū)域受高觀測值鄰域影響,屬于第二象限,即L-H類型;廣大的西北區(qū)域、中南、多數(shù)東北和少數(shù)東南區(qū)縣屬于L-L類型,區(qū)縣本身和周邊鄰域的觀測值都較低;H-L類型主要集中在東北區(qū)域及第二象限周邊的區(qū)縣,絕大部分與L-L類型相鄰,表示其觀測值比較高,屬于經(jīng)濟較發(fā)達地區(qū)。分析局部Moran指數(shù)的顯著性分布圖(圖3)可知:四川絕大部分區(qū)域?qū)儆诳臻g聚集不顯著類型,而成都周邊12個區(qū)縣的空間聚集非常明顯,其外圍的德陽市等3個區(qū)縣也具有顯著的空間相似性,宜賓市也表現(xiàn)出較為顯著的空間聚集效應(yīng);廣大經(jīng)濟不發(fā)達的西北區(qū)域和南部攀枝花市則表現(xiàn)出離散的空間分布形式,這與現(xiàn)狀有一定差異。對NLM降維結(jié)果進行局部Moran指數(shù)分析,得到象限分布圖(圖4):東北區(qū)域-成都周邊-東南區(qū)域沿線屬于H-H情況;第一象限周邊區(qū)域受其影響,屬于L-H類型;廣大的西北區(qū)域、中南和少數(shù)東南區(qū)縣屬于L-L類型;H-L類型主要集中在成都周邊和南部區(qū)縣,與L-L類型相鄰,屬于經(jīng)濟相對較發(fā)達地區(qū)。分析局部Moran指數(shù)的顯著性分布圖(圖5)可知:四川東北、中南和東南區(qū)域都屬于空間集聚不顯著類型,而成都周邊、廣大西北區(qū)域空間集聚非常顯著,較為顯著的區(qū)縣主要分布在顯著區(qū)域的周邊鄰域地區(qū)。基于PCA和NLM降維結(jié)果的Moran指數(shù)顯著性分類結(jié)果可知,成都周邊為高顯著H-H類型,西北地區(qū)為高顯著L-L類型,可分別采集到第一等級和第四等級的小樣本集;從兩者的Moran′sI象限分布圖可知,成都外圍和東北廣安市附近區(qū)縣屬于第一象限,經(jīng)濟較周邊發(fā)達,而空間聚集效應(yīng)又不顯著,可作為第二等級;在東北區(qū)縣和第四等級的交叉區(qū)域,存在部分相對高值區(qū)域,其較落后區(qū)域發(fā)達,可作為第三等級。依次每個等級采集3個樣本,導(dǎo)入SVM算法中,并采用RBF核函數(shù)[13],調(diào)節(jié)參數(shù),結(jié)果如圖6。當(dāng)γ取值較大(大于2)時,分類結(jié)果出現(xiàn)欠學(xué)習(xí)問題,有非H-H類型被劃入第一等級;而其他參數(shù)條件下的分類結(jié)果差異不大,將成都周邊、涪城區(qū)和攀枝花東區(qū)分為第一等級,將成都周圍其他區(qū)縣和東北少數(shù)區(qū)縣分為第二等級,將東北和東南其他區(qū)縣及南部分為第三等級,廣大的西部、北部和東南區(qū)縣則屬于第四等級,這與四川經(jīng)濟發(fā)展現(xiàn)狀完全吻合。與NLM分類結(jié)果相比較,具有很強的相似性,這也說明了結(jié)果的正確性。

2.3結(jié)果分析(1)采集于PCA和NLM的不同已知樣本集的SVM聚類結(jié)果之間差異大(表1)。在PCA-SVM中,第二等級區(qū)縣的數(shù)目非常少,而東北多數(shù)區(qū)縣被劃分至第四等級,并與PCA的分類結(jié)果相似,都未能準(zhǔn)確展現(xiàn)四川經(jīng)濟發(fā)展現(xiàn)狀;而NLM-SVM的結(jié)果與NLM類似,都能體現(xiàn)出經(jīng)濟發(fā)展的核心區(qū)域及經(jīng)濟較發(fā)達區(qū)域。由這兩者結(jié)果之間的較大差異可知,已知小樣本集選取的主觀性對結(jié)果影響很大,所以需要進一步考慮樣本集的合理選擇。(2)針對上述已知樣本集選取的主觀性問題,筆者利用PCA和NLM的空間自相關(guān)分析結(jié)果選取樣本集,證明該步驟不僅能大量減少樣本集的選擇范圍,而且分類結(jié)果能揭示出成都經(jīng)濟發(fā)達地區(qū)、東北和東南經(jīng)濟較發(fā)達區(qū)域、西北經(jīng)濟極不發(fā)達區(qū),能準(zhǔn)確展現(xiàn)四川經(jīng)濟發(fā)展現(xiàn)狀(表1)。SVM作為一種監(jiān)督分類算法,需要已知樣本集對聚類過程進行訓(xùn)練,由于經(jīng)濟統(tǒng)計數(shù)據(jù)不具有已知類別樣本,需要利用一定的方法來選取,而選樣過程的主觀性對SVM的分類結(jié)果具有很大的影響,同時最優(yōu)參數(shù)的獲取是一個復(fù)雜的區(qū)間搜索過程,不僅較難獲取最優(yōu)參數(shù),而且效率也較低。PCA和NLM降維結(jié)果的Moran指數(shù)分析結(jié)果能揭示出顯著的H-H和L-L類型,而Moran指數(shù)的象限分布能提取出空間集聚不顯著、但能揭示經(jīng)濟發(fā)展情況的典型空間單元,從而得到不同經(jīng)濟發(fā)展水平的典型區(qū)域,這些典型區(qū)域可作為小樣本集訓(xùn)練SVM算法聚類過程。分類結(jié)果正確揭示了四川經(jīng)濟發(fā)展現(xiàn)狀的空間格局,證明該方法能大大縮減樣本集的選取范圍,避免選樣過程的主觀性,并具有很好的分類效果,這為SVM已知樣本集的合理選取提供了新方法。

3結(jié)論

SVM具有很好的數(shù)學(xué)理論基礎(chǔ),能避免“維數(shù)災(zāi)難”,具有很好的泛化性能,且算法效率高,能夠最大化各類之間的距離,對具有已知樣本集的數(shù)據(jù)能很好地進行分析;但它是一種監(jiān)督分類,在分析經(jīng)濟統(tǒng)計數(shù)據(jù)過程中缺少已知樣本,需要利用選樣策略選取典型樣本,比如在PCA和NLM等算法的降維結(jié)果中選取不同類別的典型單元,但該過程主觀性較強,對聚類結(jié)果的準(zhǔn)確性影響很大,為此筆者提出運用空間自相關(guān)分析數(shù)據(jù)的局部空間聚集模式及其顯著性指數(shù),并基于局部Moran′I散點圖和顯著性分布圖提取不同類別的已知小樣本集,再訓(xùn)練SVM聚類過程,以解決選樣過程中的主觀性和復(fù)雜性問題。本文論證了空間自相關(guān)不僅能大量減少特征樣本集的數(shù)目,同時能準(zhǔn)確提取不同經(jīng)濟發(fā)展水平的典型區(qū)域,這不僅簡化了SVM算法小樣本集選取過程,其聚類結(jié)果也能準(zhǔn)確反映四川經(jīng)濟發(fā)展實際情況。空間自相關(guān)和SVM耦合方法不僅能大量縮減選樣范圍和簡化選樣過程,從而提取出不同類別的典型樣本和解決樣本選擇的主觀性問題,同時也能基于SVM的優(yōu)點準(zhǔn)確揭示高維數(shù)據(jù)的內(nèi)在聚類結(jié)構(gòu)。

作者:董承瑋芮小平鄧羽關(guān)興良李峰單位:北京市測繪設(shè)計研究院中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院中國科學(xué)院地理科學(xué)與資源研究所全國市長研修學(xué)院防災(zāi)科技學(xué)院

主站蜘蛛池模板: 亚洲欧美综合久久 | 婷婷四房综合激情五月在线 | 亚洲欧洲日韩另类自拍 | 亚洲国产精品成人精品软件 | 亚洲国产日韩欧美综合久久 | 亚洲综合久久久 | 毛片污| 亚洲福利视频导航 | 亚洲爱婷婷色婷婷五月 | 亚洲成人自拍 | 男人天堂网2019 | 一级国产电影 | 国产亚洲欧洲一区二区三区 | 日本波多野结衣字幕久久 | 真实国产网爆门事件在线 | 免费播放国产一级 | 一级国产视频 | 伊人性伊人情综合网 | 视频一区国产 | 亚洲综合国产一区二区三区 | 亚洲国产精品视频 | 日本欧美在线播放 | 亚洲精品国产成人7777 | 亚洲最大中文字幕 | 亚洲一区二区精品视频 | 一本久久a久久精品vr综合 | 国产高清www免费视频 | 一级毛片免费视频网站 | 亚洲九九色 | 亚洲区与欧美区 | 一本久久a久久精品vr综合 | 成人区精品一区二区不卡亚洲 | 欧美精品久久一区二区三区 | 精品手机在线视频 | 亚洲色图五月天 | 亚洲网站在线看 | 国产欧美一区二区精品性色 | 免费播放国产一级 | 色播五月综合 | 久久久国产精品视频 | 日韩日日日 |