本站小編為你精心準備了監督GroupMCP的穩健性研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《統計與信息論壇雜志》2014年第六期
(一)有監督GroupMCP方法有監督GroupMCP方法在使用時需要解釋變量的群組結構被預先確定,并要求用于構建模型的訓練資料充分包含自變量和因變量的信息,且因變量沒有缺失值。有監督GroupMCP方法獲得的學習模式可以被外推確定新樣本的因變量取值。1.模型形式和目標函數。假定有n條獨立同分布的觀測記錄Xi,{yi},i=1,2,…,n,其中P維的解釋變量向量Xi∈Rp可以分成G組,第g組解釋變量的大小為Kg;Y為被解釋變量,Y可以是連續變量,也可以是0,1二分類變量。其中βq是相對于第q個解釋變量的回歸系數,Xi,g是第g組解釋變量第i次觀測的取值向量,βg為相應的系數向量,ei為殘差項,ηβ()•是轉換函數,在Logistic回歸模型中表示為Logit函數。GroupMCP方法在目標函數的群組層面加上MCP罰式(3),其中λ為正則參數,用來調整懲罰力度;α為調整參數,用來控制懲罰范圍;θ=β,當θ≤αλ時,MCP罰的懲罰力度會隨著參數絕對值的增大而增大;當θ=β足夠大、即θ>αλ時,懲罰力度將維持在0.5αλ2不變。MCP罰可以避免像Lasso罰那樣一直增大懲罰力度,從而給參數估計值帶來較大的偏倚。2.參數估計的算法實現。極小化損失函數式(4)與式(5)在求解待估參數時需要充分考慮解釋變量之間的關系結構,于是傳統的統計計算算法將不再適用,建議使用局部群組梯度下降算法。局部群組梯度下降算法是梯度下降算法向群組變量的擴展,即在每個群組內使用梯度下降算法,既保留了梯度下降法簡便易行的優點,又考慮了解釋變量的群組結構[10]。此算法的具體操作步驟為:第一步,預先設定參數向量的初始值槇β=β()0;第二步,求解損失函數Q(β)依據一階泰勒展開的漸近函數槇Q(β);第三步,進行迭代計算,即在第t次迭代時以第t-1次迭代計算得到的參數向量估計值βt-()1為基準,對每一個待估參數βgk在給定其他參數不變的情況下,依據槇Q(β)在βgk上的偏導數等于0(即槇Q((β))/(βgk)=0)計算更新t次迭代后估計值為槇β(t)gk。重復進行迭代計算,直到相鄰兩次參數估計值的差值小于容忍度tol時停止,此時的參數估計值即為最終估計值。3.冗余參數的確定。有監督GroupMCP方法的討厭參數有正則參數λ和調整參數α,這兩個參數共同確定了GroupMCP懲罰函數的大小和范圍。討厭參數的不同取值將造成參數的不同估計結果,于是為了準確地選擇解釋變量,要先確定冗余參數的合理取值。筆者建議可以使用基于Grid估計的迭代計算方法,具體計算步驟為:首先給出λ和α在其支撐集上的一系列取值;然后計算給定λ和α取值下模型參數的估計值,從而得到AIC、BIC或GCV評價指標的得分;最后根據AIC、BIC或GCV最小值來確定討厭參數的合理取值。4.模型估計結果的分析。MCP懲罰函數的引入會使較小的參數估計值收縮為0,也就是說對因變量解釋效果越小的群組變量的回歸系數越容易收縮為0,于是回歸系數不為0的群組變量即為選出的變量。基于選出的變量組可以構建最終模型,根據此模型的預測效果即可以評價變量選擇及所建模型的準確度。
(二)有監督GroupMCP方法穩健性研究的本質成組變量選擇方法的穩健性研究與單個變量選擇不同。單變量選擇方法的穩健性研究通常考慮當數據包含異常值時,該方法是否仍可以準確地選出顯著的解釋變量;成組變量選擇方法的穩健性則多討論因理論知識不完備、或數據包含測量誤差造成解釋變量的群組結構與真實結構不同時,亦即當群組結構不可避免地存在一定錯誤率的情況下,該方法仍然能夠準確地選擇有顯著解釋作用的變量,而且還能夠得到良好預測效果的性質。有監督GroupMCP方法的穩健性研究的本質,在于討論此方法對解釋變量的群組結構錯誤率的容忍程度。所謂結構錯誤率或變量錯分率,是指實際分析中被錯誤分組的變量個數占變量總個數的比例,即“結構錯誤率=被錯誤分組的變量個數/變量總個數”。有監督GroupMCP方法對結構錯誤率的容忍度越大則穩健性越強。值得注意的是,對有監督GroupMCP方法的穩健性進行研究時需要充分考慮現實環境的復雜多變,具體體現在解釋變量類型的多樣性、結構錯誤率的非確定性以及被錯分變量的隨機性等。變量類型的多樣性是指解釋變量可以是連續的、離散的、名義的或多種類型的混合;結構錯誤率的非確定性是指實際研究中解釋變量群組結構的錯誤率是預先未知的,且在不同研究中結構錯誤率也不同;被錯分變量的隨機性是指各種類型的變量都可能被錯誤分類。為了盡可能地貼近現實情況來研究有監督GroupMCP的穩健性,本文參考國外學者的研究和模擬方法,模擬生成多套具有不同結構錯誤率且被隨機錯分的解釋變量,這些解釋變量可以是連續的、離散的或名義的[11-12]。對模擬數據進行分析的重點是,討論有監督GroupMCP方法在不同結構錯誤率下的變量選擇和模擬預測效果。
二、模擬研究
(一)研究內容和步驟模擬研究包括模擬生成數據、分析數據和結果討論三個主要環節:模擬生成數據環節將模擬產生具有不同結構錯誤率的、包含離散變量和連續變量等不同類型的隨機數據作為解釋變量,基于真實模型對模擬生成的解釋變量進行計算得到每個樣本的因變量取值;分析數據環節將使用有監督GroupMCP方法對模擬數據進行分析;結果討論環節則分析討論解釋變量被選出的頻率、模型的預測效果,即回歸分析中以“預測偏倚=abs(預測值的期望-觀測值的均值)”、“預測殘差的方差=Var(預測值-真實值)”、“預測均方誤差MSE=預測偏倚的平方+預測殘差的方差”作為評價準則,分類判別中以靈敏度、特異度和AUC均值作為評價準則。在某一結構錯誤率下,有監督GroupMCP方法若能高概率地選出對因變量有顯著解釋效果的變量,低概率地選出沒有顯著解釋效果的變量,且所得模型預測效果較好,即可說明有監督GroupMCP方法對此結構錯誤率有很強的容忍性。
(二)回歸預測中有監督GroupMCP方法的穩健性假定組內解釋變量之間具有高相關性,不同組解釋變量之間存在弱相關或不相關。模擬設定前3組解釋變量對因變量有顯著解釋效果,后三組則沒有。從[-2,2]的均勻分布中隨機抽取30個數值對應為這30個解釋變量的系數b1~b30,基于前30個解釋變量及其系數。
(三)分類判別中有監督GroupMCP方法的穩健性模擬產生6組,每組10個,共有60個解釋變量,其中x1~x10、x11~x20、…、x51~x60分別為一組,這些解釋變量可以是連續的或是離散的。假定組內解釋變量之間具有高相關性,不同組解釋變量之間存在弱相關或不相關。模擬設定前3組解釋變量對因變量有顯著解釋效果,后三組則沒有。從[-2,2]的均勻分布中隨機抽取30個數值對應為這30個解表2中AUC是指ROC曲線下面積,AUC取值越高說明分類效果的準確度越高;靈敏度是指真實值為1且預測結果為1的概率;特異度是指真實值為0且預測結果為0的概率。
(四)小結1.解釋變量之間的關系結構準確可知時,GroupMCP方法能夠正確地選擇變量組。從圖1(a)與圖2(a)可知,當解釋變量之間的關系結構準確可知時,GroupMCP方法在回歸預測或分類判別中都能夠以近100%的概率精準地選出對因變量有顯著解釋效果的變量組。2.結構錯誤率在5%以下時,GroupMCP方法具有較好的穩健性。分析圖1(b)與圖2(b)可知,當結構錯誤率在5%時,對因變量有顯著影響的解釋變量可以被以高于98/100=98%的概率被選出,其他非顯著解釋變量會被以不高于60/100=60%的概率選出。比較分析圖1和圖2以及表1和表2發現,結構錯誤率越高選出無解釋效果變量的可能性就越大,而選擇具有顯著解釋效果變量的準確度就越低。由于選出的解釋變量較多,模型預測效果沒有受到明顯的影響,于是可知當結構錯誤率在5%以下時,有監督GroupMCP方法具有良好的穩健性。3.忽略解釋變量內部結構將不利于準確選擇變量及變量組。比較分析圖1(d)與圖2(d)可知,忽略解釋變量的群組結構會遺漏許多重要的解釋變量,同時也會選出一些不重要的解釋變量,不利于找出對因變量有顯著解釋效果的變量及變量組。
三、實例分析
(一)研究背景和目的證候是中醫領域的一個重要概念,是指疾病過程中一定階段的病位、病因、病性、病勢及肌體抗病能力的強弱等與本質有機聯系的反應狀態,由多個證素單元組成,而每個證素具體表現為臨床可被觀察到的一系列癥狀。亞健康狀態是介于健康與疾病之間的一個物理狀態,主要表現有身體不太舒服、虛弱、無精力,具體表現為精力衰退、肢體功能和能動性衰弱,但是還達不到疾病診斷的嚴重程度。中醫善于“治未病”,認為亞健康是陰、氣、血、臟、腑出現不均衡所致,并認為與虛、火、瘀阻、濕四個證素有關[13](見表3)。由于患者的體質不同,即使都是亞健康人群,不同患者的主證不同,起關鍵作用的證素也不同。準確判斷患者的證素有助于深度了解患者的體質和疾病狀態,是后續治療的基礎。本研究將對影響肝郁脾虛證的亞健康人群的關鍵證素及相應癥狀進行探索分析。
(二)數據說明此研究采用分層抽樣的方法,從6家臨床中心隨機選取了307個亞健康受試者,剔除缺失診斷結果的4人,共有303個受試者進入研究,其中57人為肝郁脾虛證的亞健康患者,占18.81%。納入模型的解釋變量及其結構見表3。從表3的描述統計結果可知,這些癥狀在肝郁脾虛證的亞健康人群中的分布概率大于非肝郁脾虛人群中的分布概率;瘀阻所包含的癥狀在兩類分群中的分布差異更為明顯;每個癥狀的發生頻率都較低,因某個單一癥狀無法區分肝郁脾虛人群,故本文采用成組變量選擇法進行分析。
(三)模型構建和參數估計基于表3所列解釋變量的群組結構建立GroupMCPLogistic模型,分析得知對肝郁脾虛證的亞健康患者起重要影響的證素為瘀阻和濕證,這兩個證素包含的癥狀及相應參數估計結果見表4。根據五折交叉驗證方法,計算得AUC均值為0.7377,標準差為0.0857,平均靈敏度為0.8571,平均特異度為0.7604。如果不考慮癥狀之間的群組結構而構建一般的Logistic模型,選出的癥狀指標及其相應參數估計結果見表5。使用五折交叉驗證方法計算得AUC均值為0.7531,標準差為0.0829,平均靈敏度為0.8247,平均特異度為0.7171。
(四)結果分析比較分析表4和表5的變量選擇和參數估計結果可知:第一,兩類模型研究目的不同,導致了變量選擇結果的不同。基于有監督GroupMCP的Logistic模型的研究目的,在于合理處理變量之間的相關關系,選擇有顯著解釋意義的變量組,此方法有效地指出了在本研究所調查的亞健康人群中,瘀阻和虛證(主要是腎陽虛)是影響肝郁脾虛證診斷的兩大重要證素;傳統Logistic模型在選擇有顯著解釋意義單個變量時并不考慮變量之間的關系,于是在本實例分析中此方法可用于疾病預測,但不利于研究亞健康人群中對肝郁脾虛證影響顯著的證素。第二,基于有監督GroupMCP的Logistic模型具有較好的解釋性。比較表4和表5可知,基于GroupMCP的Logistic模型選出對亞健康人群中肝郁脾虛證的診斷起顯著作用的是瘀阻和虛證,且瘀阻類癥狀的系數符號都為正,虛證所包含癥狀的系數有正有負,說明本研究調查的亞健康人群中肝郁脾虛證的癥狀以肝郁為主,氣虛的癥狀越重表明更偏向于單證的虛證,而非兼證肝郁脾虛證與中醫理論相符。基于MCP的Logistic模型同時選出便秘和大便稀溏,且系數都為正值,不易于解釋。第三,解釋變量具有內部結構時,基于GroupMCP的Logistic模型對數據有更好的擬合及預測效果。從AUC、特異度、靈敏度等評價指標上看,基于GroupMCP的Logistic模型的AUC均值為0.7671,平均靈敏度為0.8514,平均特異度為0.74,高于基于GroupMCP的Logistic模型,這是因為基于GroupMCP的Logistic模型考慮了解釋變量內部結構,充分使用數據信息,對數據有更好的解釋和預測效果。同時,前者AUC的標準差為0.0689,低于后者,說明GroupMCP方法有更好的穩健性。
四、討論與展望
成組變量的選擇問題在經濟、生物基因、醫學診斷等實際問題研究中極為常見。有監督GroupMCP是在給定解釋變量的群組結構的基礎上進行GroupMCP分析的一種數據挖掘方法。此方法考慮變量的內部結構,提高了變量選擇結果的準確性,有效降低計算量和計算偏差,具有良好的Oracle性質。但此方法的穩健性問題尚未得到充分研究,而一個方法的穩健性即對異常情況的容忍程度,是決定此方法能否被廣泛使用的關鍵因素。為此,本文重點研究和討論有監督的GroupMCP方法的穩健性問題。本文根據有監督GroupMCP方法的相關理論,確定本次穩健性研究的目的、研究方法和評價標準,采用模擬研究討論有監督GroupMCP方法在不同結構錯誤率下進行變量選擇和模型預測的穩健性,通過實例分析說明本研究的應用價值。第一,基于GroupMCP的Logistic模型合理地處理了變量之間的相關關系,能夠準確地選擇對因變量有顯著解釋意義的變量組或潛變量。例如本文的實例分析部分,選出了對亞健康人群中肝郁脾虛證的辨證起關鍵作用的證素有瘀阻和虛,這也是此方法與單變量選擇方法在研究目的上的本質區別。第二,解釋變量存在群組結構時,有監督GroupMCP方法在分類判別和回歸預測中都可以準確地選擇有顯著解釋變量的變量組,所得模型具有良好的解釋和預測效果。第三,解釋變量結構的準確度越高,變量選擇和模擬預測效果越精準。當解釋變量的關系結構的先驗信息出現略微錯誤時,若結構錯誤率不超過5%,有監督GroupMCP方法仍然可以準確選出顯著的變量組,模型預測效果也有很好的穩健性。但是,有監督GroupMCP方法仍存在局限性。例如有監督GroupMCP方法會將顯著的群組內的所有變量都選出,增加冗余變量個數,提高模型復雜度;此方法假定解釋變量存在群組結構,但在實際問題中解釋變量的內部結構可能是更加復雜的網絡結構,此時GroupMCP方法的群組結構假設將不再適用,需要引入Liu等人提出的基于網絡結構的協變量研究方法進行分析[14];GroupMCP方法的研究重點是顯著變量的群組選擇,而不是單個解釋變量,當研究既關注解釋變量的內部結構又關注單個變量時,此方法的使用效果不再完美,還有待于在未來的研究中進一步改進和完善。
作者:李淞淋李揚易丹輝單位:中國人民大學統計學院應用統計科學研究中心統計咨詢研究中心