本站小編為你精心準(zhǔn)備了SVM混合集成的信用風(fēng)險(xiǎn)論文參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。
1相關(guān)概念
1.1支持向量機(jī)支持向量機(jī)(SupportVectorMachine,svm)已經(jīng)成為倍受關(guān)注的分類(lèi)技術(shù)。基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,SVM通過(guò)求解最優(yōu)分隔超平面來(lái)得到高分類(lèi)準(zhǔn)確率的分類(lèi)器(圖1)。考慮有數(shù)據(jù)集Dx,y,i1,2,…,N,N為樣本總數(shù),xRR,x是p維向量,y1,1是二分類(lèi)問(wèn)題中的類(lèi)標(biāo)。在分類(lèi)問(wèn)題中,SVM嘗試找到最小化期望分類(lèi)誤差的分類(lèi)器fx。線性分類(lèi)器fx是一個(gè)可以表示成fxsgnwxb的超平面。找到SVM的最優(yōu)分類(lèi)器fx的過(guò)程等同于優(yōu)化如下公式(1)中的凸二次規(guī)劃問(wèn)題:其中,C是正規(guī)化參數(shù),用于平衡分類(lèi)器在數(shù)據(jù)集D中的時(shí)間復(fù)雜度與分類(lèi)準(zhǔn)確率。上述二次規(guī)劃問(wèn)題可以通過(guò)對(duì)偶函數(shù)求解。基于核方法,用核函數(shù)取代上述公式中的內(nèi)積,可以將線性SVM轉(zhuǎn)換成更為復(fù)雜的非線性SVM。一些典型的核函數(shù)如下。
1.2集成學(xué)習(xí)模型近來(lái)的研究表明集成多個(gè)分類(lèi)器的學(xué)習(xí)模型能取得更高的準(zhǔn)確率[8][14]。集成學(xué)習(xí)模型的核心觀點(diǎn)在于,組合多個(gè)分類(lèi)器從而得到比原始的單個(gè)分類(lèi)器更加準(zhǔn)確和有效的集成學(xué)習(xí)系統(tǒng)。這一思想源于組合多個(gè)相對(duì)簡(jiǎn)單的模式識(shí)別設(shè)備后出現(xiàn)的性質(zhì)。集成學(xué)習(xí)模型通過(guò)匯集所有分類(lèi)器的決策結(jié)果,從而得到一個(gè)優(yōu)于所有成員分類(lèi)器的混合模型。圖2給出了集成學(xué)習(xí)模型的總體結(jié)構(gòu),幾個(gè)不同組合成員分類(lèi)器(專(zhuān)家)的輸出被組合成最終的輸出。
1.2.1AdaBoostAdaBoost是集成學(xué)習(xí)中常見(jiàn)的集成策略,其主要出發(fā)點(diǎn)在于,分類(lèi)器的集成是增量式進(jìn)行的,每次增加一個(gè)組合成員分類(lèi)器。每個(gè)組合成員分類(lèi)器的訓(xùn)練集的選擇是基于上一個(gè)分類(lèi)器表現(xiàn)的。在AdaBoost中,訓(xùn)練集中被錯(cuò)誤分類(lèi)的樣本在下一次比被正確分類(lèi)的樣本有更高的概率被選中。因此,后續(xù)訓(xùn)練會(huì)使集成分類(lèi)器更加注重錯(cuò)分的樣本,這一方法也使得基于AdaBoost的集成學(xué)習(xí)模型在許多問(wèn)題上的性能優(yōu)于基Bagging的集成學(xué)習(xí)模型[13]。目前已經(jīng)有多種不同的AdaBoost算法。在本文的研究中,我們選擇了AdaBoostM1算法[15]作為AdaBoost集成策略。
1.2.2隨機(jī)子集模型隨機(jī)子集模型(RandomSubspaceMethod,RSM)是由Ho[16]提出的集成策略。RSM同樣是通過(guò)改變訓(xùn)練數(shù)據(jù)集來(lái)達(dá)到抽樣的目的。然而,這種改變是基于屬性的。假定訓(xùn)練樣本XX,X,…,X中的Xi1,…,n是一個(gè)p維向量:Xx,x,…,x由p個(gè)特征決定。在RSM中,首先從p維的訓(xùn)練集樣本X中隨機(jī)選擇rp個(gè)特征。這樣可以得到原來(lái)p維特征空間的r維隨機(jī)子空間。修正后的訓(xùn)練數(shù)據(jù)集XX,X,…,X包含了r維的訓(xùn)練樣本XX,X,…,Xi1,…,n,其中r個(gè)成分xj1,…,r是從訓(xùn)練集X向量的p個(gè)部分xj1,…,p中隨機(jī)抽取的(每個(gè)訓(xùn)練樣本被選擇的屬性是相同的)。接下來(lái)可以在不同的隨機(jī)子空間X中生成不同的組合成員分類(lèi)器,并使用組合投票方法得到最終結(jié)果。
2基于RSA-SVM的信用風(fēng)險(xiǎn)評(píng)估模型
為了得到評(píng)估準(zhǔn)確率更高的信用風(fēng)險(xiǎn)評(píng)估模型,本文提出了一種新的被稱(chēng)作RSA-SVM的混合集成模型來(lái)進(jìn)行信用風(fēng)險(xiǎn)評(píng)估,RSA-SVM使用了一種稱(chēng)作RSA的混合集成策略,并使用SVM作為組合成員分類(lèi)器。根據(jù)文獻(xiàn)[17]對(duì)于有效的集成學(xué)習(xí)模型的定義:“集成學(xué)習(xí)模型能取得更高預(yù)測(cè)準(zhǔn)確率的充分必要條件為,用于組合的分類(lèi)器必須是準(zhǔn)確和有差異的”。對(duì)于第一個(gè)條件(準(zhǔn)確),我們選擇了SVM作為組合成員分類(lèi)器。對(duì)于第二個(gè)條件(多樣),意味著每個(gè)組合成員分類(lèi)器對(duì)于問(wèn)題都有自己獨(dú)有的知識(shí),并且相對(duì)于其它的組合成員分類(lèi)器能有不同的預(yù)測(cè)錯(cuò)誤。在集成學(xué)習(xí)中,RSM和AdaBoost是兩種常見(jiàn)的生成不同組合成員分類(lèi)器,從而提高其多樣性的策略,已有許多應(yīng)用證明了這兩種策略的有效性[13]。然而,對(duì)于AdaBoost,提高多樣性的方式僅僅在于訓(xùn)練數(shù)據(jù)集的不同分割方式。為了增加多樣性,本文使用RSM選擇一個(gè)屬性子集作為輸入,接下來(lái)使用AdaBoost獲取不同的訓(xùn)練集子集,從而得到了由RSM和AdaBoost兩種流行策略混合而成的集成策略。
2.1模型總體描述
本文提出的RSA-SVM模型的具體步驟算法1所示(對(duì)應(yīng)的子抽樣過(guò)程如算法2所示)。算法具體步驟為:1)運(yùn)行子抽樣過(guò)程(算法2),從TR中有放回抽樣得到當(dāng)前分類(lèi)器所需的訓(xùn)練數(shù)據(jù)集。2)使用RSM對(duì)TR的屬性進(jìn)行隨機(jī)抽樣(選取λ比例的屬性),得到新的訓(xùn)練數(shù)據(jù)集TR,對(duì)TR進(jìn)行同樣操作得到TR(對(duì)應(yīng)的測(cè)試數(shù)據(jù)集進(jìn)行同樣操作)。3)在TR上訓(xùn)練得到組合成員分類(lèi)器SVM。4)計(jì)算SVM在訓(xùn)練數(shù)據(jù)集TR上的預(yù)測(cè)錯(cuò)誤ε,該ε決定了組合成員分類(lèi)器SVM在加權(quán)組合投票時(shí)的權(quán)重。5)上述過(guò)程重復(fù)進(jìn)行T次,在訓(xùn)練過(guò)程中組合成員分類(lèi)器的權(quán)重根據(jù)其正確率變化而變化。6)最終模型的輸出由T個(gè)組合成員分類(lèi)器加權(quán)投票決定。RSA與AdaBoost的不同點(diǎn)在于:RSA在AdaBoost的樣本隨機(jī)抽取的基礎(chǔ)上增加了屬性的隨機(jī)抽取,使得樣本的隨機(jī)性增加。RSA與RSM的不同點(diǎn)在于:RSA在RSM的屬性隨機(jī)抽取的基礎(chǔ)上增加了樣本的隨機(jī)抽取。這樣做的目的同樣是為了增加樣本的隨機(jī)性。
2.2時(shí)間復(fù)雜度分析設(shè)n為訓(xùn)練樣本的個(gè)數(shù),d為每個(gè)樣本包含的特征數(shù)目,T為組合成員分類(lèi)器的數(shù)目。在算法1中,循環(huán)總共進(jìn)行了T次,子抽樣過(guò)程的時(shí)間復(fù)雜度為On,RSM隨機(jī)抽樣的時(shí)間復(fù)雜度為Ond,而預(yù)測(cè)錯(cuò)誤和權(quán)重的計(jì)算的時(shí)間復(fù)雜度同樣為On,又因?yàn)闃?biāo)準(zhǔn)支持向量機(jī)的時(shí)間復(fù)雜度是On[18],所以本文提出的RSA-SVM集成模型的時(shí)間復(fù)雜度。
3實(shí)驗(yàn)
3.1實(shí)驗(yàn)數(shù)據(jù)集為了驗(yàn)證混合集成模型RSA-SVM的有效性,本文在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中常用的兩組公開(kāi)的信用數(shù)據(jù)集進(jìn)行了實(shí)證分析,這兩組數(shù)據(jù)集分別是澳大利亞信用數(shù)據(jù)(AustralianCredit)和日本信用數(shù)據(jù)(JapaneseCredit)。下表(表1)給出了兩組數(shù)據(jù)集的具體內(nèi)容。其中,對(duì)于日本信用數(shù)據(jù)集,為了避免屬性中定性變量過(guò)多帶來(lái)的負(fù)面影響,我們只使用了15個(gè)屬性中的13個(gè)屬性A1-A5,A8-A15。在數(shù)據(jù)屬性處理過(guò)程中,有K個(gè)類(lèi)別的定性變量的屬性需要用K-1個(gè)布爾屬性來(lái)表示。觀察可知,在日本信用數(shù)據(jù)集中,A6與A7這兩個(gè)屬性為類(lèi)別屬性,且類(lèi)別數(shù)最多。為了避免輸入空間的維度過(guò)高,本文不使用A6與A7這兩個(gè)屬性,這種數(shù)據(jù)處理方式同樣可以在文獻(xiàn)[12]中找到。另外,在運(yùn)行混合集成模型RSA-SVM之前,需要對(duì)兩組數(shù)據(jù)集進(jìn)行歸一化處理。
3.2評(píng)價(jià)指標(biāo)本文實(shí)驗(yàn)選擇了信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域常見(jiàn)的三種度量指標(biāo)作為衡量模型好壞的標(biāo)準(zhǔn),這三種指標(biāo)包括平均準(zhǔn)確率(Average)、第一類(lèi)錯(cuò)誤(TypeIerror)和第二類(lèi)錯(cuò)誤(TypeIIerror)。其中,第一類(lèi)錯(cuò)誤和第二類(lèi)錯(cuò)誤是信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)中常見(jiàn)的兩類(lèi)分類(lèi)錯(cuò)誤。對(duì)于銀行來(lái)說(shuō),第一類(lèi)錯(cuò)誤將好的客戶(hù)分類(lèi)為壞的客戶(hù)并且拒絕該客戶(hù)的貸款申請(qǐng),這樣會(huì)降低銀行的利潤(rùn)。相反的,第二類(lèi)錯(cuò)誤將壞的客戶(hù)分類(lèi)為好的客戶(hù)并提供貸款,這樣會(huì)給銀行帶來(lái)?yè)p失。研究者通常更重視第二類(lèi)錯(cuò)誤,因?yàn)橥ǔUJ(rèn)為第二類(lèi)錯(cuò)誤能給金融機(jī)構(gòu)帶來(lái)更嚴(yán)重的沖擊。在以往的信用風(fēng)險(xiǎn)評(píng)估模型的研究中,SVM通常被認(rèn)為比ANN更優(yōu),因?yàn)樗哪繕?biāo)函數(shù)可以控制第二類(lèi)錯(cuò)誤。然而,也不能忽視第一類(lèi)錯(cuò)誤在提高銀行收益方面所起到的作用[19]。
3.3實(shí)驗(yàn)結(jié)果在本文的實(shí)驗(yàn)過(guò)程中,我們使用LIBSVM的二次開(kāi)發(fā)接口進(jìn)行了二次開(kāi)發(fā),在Eclipse平臺(tái)上使用JAVA語(yǔ)言實(shí)現(xiàn)了本文提出的RSA-SVM模型。為了進(jìn)行對(duì)比試驗(yàn),本文還實(shí)現(xiàn)了基于Bagging的SVM集成學(xué)習(xí)模型(Bagging-SVM)[13]、隨機(jī)子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在兩組公開(kāi)信用數(shù)據(jù)集上,采用10-折交叉驗(yàn)證的方式,實(shí)驗(yàn)比較了RSA-SVM和一些常見(jiàn)的信用風(fēng)險(xiǎn)評(píng)估模型的性能。這些常見(jiàn)的信用風(fēng)險(xiǎn)評(píng)估模型包括:線性回歸(LR)、邏輯回歸(LOG)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)、標(biāo)準(zhǔn)支持向量機(jī)(SVM)、模糊支持向量機(jī)(B-FSVM)[20]、模糊近似支持向量機(jī)(FPSM)[21]、基于Bagging的SVM集成學(xué)習(xí)模型(Bagging-SVM)[13]、隨機(jī)子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在實(shí)驗(yàn)過(guò)程中,組合成員分類(lèi)器的數(shù)目為15[13],隨機(jī)子集模型中屬性的抽樣比例為0.9[8]。兩組數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3、表4所示。表3給出了不同的信用風(fēng)險(xiǎn)評(píng)估模型在日本信用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,根據(jù)實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:1)本文提出的RSA-SVM模型在三種核函數(shù)上都取得了最好的實(shí)驗(yàn)結(jié)果(取得了前三的排名),這一結(jié)果證明了本文提出的模型的有效性;2)集成模型的預(yù)測(cè)準(zhǔn)確率普遍優(yōu)于單分類(lèi)器模型,這也說(shuō)明了在日本信用數(shù)據(jù)集中,集成多個(gè)分類(lèi)器的集成學(xué)習(xí)模型能取得更高的預(yù)測(cè)準(zhǔn)確率。表4給出了不同的信用風(fēng)險(xiǎn)評(píng)估模型在澳大利亞信用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,根據(jù)實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:1)本文提出的RSA-SVM模型取得了最好的實(shí)驗(yàn)結(jié)果;2)隨機(jī)子集SVM(RS-SVM)取得了次優(yōu)的結(jié)果,這說(shuō)明了隨機(jī)子集策略的有效性。綜上所述,在信用風(fēng)險(xiǎn)評(píng)估問(wèn)題中,本文提出的混合集成模型RSA-SVM模型能取得更高的預(yù)測(cè)準(zhǔn)確率,是進(jìn)行信用風(fēng)險(xiǎn)評(píng)估的有效模型。
4總結(jié)與展望
信用風(fēng)險(xiǎn)評(píng)估已經(jīng)成為金融機(jī)構(gòu)評(píng)估信用風(fēng)險(xiǎn)、增加現(xiàn)金流量、降低可能風(fēng)險(xiǎn)和做出有效決定的主要方法。信用風(fēng)險(xiǎn)評(píng)估模型的評(píng)估準(zhǔn)確率對(duì)于金融機(jī)構(gòu)的利潤(rùn)影響較大,評(píng)估準(zhǔn)確率僅僅提高一個(gè)百分點(diǎn)常常能使金融機(jī)構(gòu)挽回很大的損失。為了得到評(píng)估準(zhǔn)確率更高的信用風(fēng)險(xiǎn)評(píng)估模型,本文提出了一種新的被稱(chēng)作RSA-SVM的混合集成策略,并使用SVM作為組合成員分類(lèi)器來(lái)進(jìn)行信用風(fēng)險(xiǎn)評(píng)估。實(shí)驗(yàn)在UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中常用的兩組公開(kāi)的信用數(shù)據(jù)集上比較了RSA-SVM和一些常見(jiàn)的信用風(fēng)險(xiǎn)評(píng)估模型的性能,實(shí)驗(yàn)結(jié)果表明混合集成模型RSA-SVM能取得更高的預(yù)測(cè)準(zhǔn)確率,是進(jìn)行信用風(fēng)險(xiǎn)評(píng)估的有效模型。本文以后的研究方向包括以下三個(gè)方面:首先,本文只在兩組公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了檢驗(yàn),模型在其它數(shù)據(jù)上的有效性還需要進(jìn)一步驗(yàn)證;其次,我們選擇了SVM作為組合成員分類(lèi)器,模型在其它組合成員分類(lèi)器(如ANN)上的性能分析也是未來(lái)的研究方向;最后,本文模型混合了兩種流行策略(RS和AdaBoost)取得了較好的性能,如何構(gòu)建其它的混合策略,從而進(jìn)一步提高分類(lèi)性能,也是未來(lái)的研究方向。
作者:陳云石松潘彥俞立單位:上海財(cái)經(jīng)大學(xué)公共經(jīng)濟(jì)與管理學(xué)院上海市金融信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室