本站小編為你精心準備了商業銀行客戶身份的識別參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《金融論壇雜志》2014年第八期
一、定義樣本群與自變量選擇
基于商業銀行業務實踐,考慮到經濟中的R類個人客戶群往往具有幾種混合的特定常態化金融需求,所以我們將可以通過數據倉庫直接查詢獲得的幾種金融需求共同組合作為樣本群Y=1的必要條件①;同時,考慮不是R類客戶的這一類群體:業務場景上我們假定一段時間內不具有或不發生全部特定Y=1金融行為的客戶劃歸為Y=0客戶群體。樣本群定義示意如圖1所示。通過捕捉R類客戶群的常態化金融特需求與行為指標尋找到Y=1和Y=0樣本群后,考慮模型所需的觀察期、表現期及各驗證樣本組的情況:一般將研究設定樣本觀察期在表現期之前1年,觀察期主要用于基于兩客戶群甄別篩選自變量;樣本表現期為6個月,該期間數據主要用于建模使用。對表現期內的樣本客戶各預留10%~20%,作為模型的同期驗證樣本;同時,限定被篩出的兩樣本群客戶在商業銀行的開戶時間在樣本觀察期以前需有一定的積累②,以保證兩部分樣本群客戶有足夠可觀察的金融行為表現,不影響隨后對自變量的篩選。另外,也在不同地區選取了若干營業網點的客戶數據,通過客戶訪談等方式在已經明確某一客戶是否屬于R類的情況下,組成網點驗證組進行應用效果檢驗。各樣本組的基本屬性如表1所示。自變量選擇上,如前所述,最終納入模型的變量不僅能夠在商業銀行應用與實踐階段保持較好的業務解釋能力,也需要在統計層面有較為理想且相對穩定的判別與預測能力。所以本文按照業務與可獲得性、雙變量分析、多重共線性檢驗等篩選步驟對模型中擬加入的自變量進行挑選。
(一)業務與可獲得性篩選考慮到本文關注對象R類客戶群很可能在存貸業務、中間業務、銀行卡業務等方面與非R群體存在差異,同時基于一般商業銀行數據倉庫中客戶與產品數據的可獲得性,研究中初步擬選了三大類指標,包括:客戶產品情況指標;客戶基本屬性指標;其他輔助指標。在客戶產品持有情況一攬子指標中,涵蓋了與個人客戶相關的存款類、貸款類、中間業務類、銀行卡類這四類指標;客戶基本屬性指標中基本涵蓋了客戶年齡、性別、開立銀行賬戶時長、開戶機構數等指標;在其他輔助類指標中,主要包括了能夠顯現R群體常態化金融需求特定業務指標。
(二)雙變量分析與多重共線性篩選雙變量分析(見表2)是將每一個X變量與“是否為Y=1群體”變量之間進行考察。使用這種方法篩選變量基于兩種考慮:一是可以通過調整某一變量適當的分段,將X變量轉化為分組有序變量、多分類名義變量等,獲得更為精細化的識別結果。舉例來說,如客戶年齡變量,可以通過適當的分段,將其轉換為幾個啞變量(dummyvariable),從而得到某些年齡段客戶比另外一些年齡段客戶更容易有R類上的特征;或者說,在其他條件不變的情況下,可以發現一些年齡段客戶要比另外一些年齡段客戶在是否為R類的評價上獲得更高的可能性。二是有利于觀察某一自變量在方程中所起到的作用、增強最終納入模型的變量在實際業務中的解釋能力。操作上,我們從統計意義和已有的商業實踐考慮,認為如果某一分段中的總體個數占整體總量5%以上,同時每段中Y=1的樣本數量與每段中總體數量比例隨每段呈現遞增或遞減趨勢,則認為分段后的X變量通過了雙變量分析篩選。之后,觀察余下變量的方差膨脹因子(VarianceInflationFactor,VIF),VIF越大意味著變量的共線性程度越嚴重。經驗認為當某一變量的VIF>10則說明該變量與其余變量存在多重共線性。需要說明,當某些高VIF變量非常有助于模型最終的業務解釋,可嘗試構造某些因子(factor)來保留這部分變量信息,同時也消除了高VIF變量,限于篇幅,此處不做展開。
二、回歸、檢驗與評價
構建R類個人客戶特征身份識別模型時,主要考慮并解決兩個問題:一是得到某一客戶絕對的判別概率,獲知轄內客戶在多大程度上可以認為某一客戶是R類或認為非R;二是基于判別概率對客戶進行排序,并從模型的覆蓋和命中角度綜合衡量,擬定明確的R類群體(這里R群體可以理解為“業務使用群體”)。實質上,R群體的業務規模某種程度上是以建模為指導并結合業務需求最終確定的,具體而言,可根據業務實踐的不同策略與目標,如客戶細分、精準營銷、產品規劃等,結合定量化建模與模型評價再給出的群體。因此,由于不同策略或目標下的判別概率不同,最終的應用規模或允許誤判率也不同。本部分介紹模型的檢驗及評價,并簡要說明基于不同業務場景的模型應用。經過定義變量、數據清洗與篩選后,對余下變量采用逐步回歸方法(StepwiseRegression)進行Logistic回歸,最終留下的變量及回歸結果如表3所示。為便于應用,我們將某一判別概率轉化為0~1000的判別分數。基于客戶特征身份識別模型在實踐中的不同應用場景(如群體規模預測、數據庫精準營銷等),對模型檢驗與評價所關注的指標也各有不同。例如,在傾向于數據庫營銷(databasemarketing)中的篩選目標客戶過程,某種意義上更關注于模型命中率與提升力(lift);如果傾向于R群體的規模預測(populationforecasting),則更為關注模型覆蓋率。同時,對在預測群體中是否能顯現足夠的差異性上,則可以更多地關注于K-S值、ROC等指標;另外,通過同期與非同期驗證的方法考察了模型的穩定性。綜合來說,我們從模型的覆蓋、命中、預測群體差異等角度,對模型進行檢驗與評價。
(一)覆蓋與命中從某一判別分數或判別概率p下獲得的混淆矩陣(Confu-sionMatrix)出發,重點考察模型的正例覆蓋率(Sensitivity,Se)與負例覆蓋率(Specificity,Sp)、正例命中率(PPV)與負例命中率(NPV)。定義某一判別概率p下的混淆矩陣結構如表4所示。我們定義Se、Sp及PPV、NPV分別為:Se=a(/a+b)即某一判別概率p下,實際為1且預測為1的數量與實際為1的比例;Sp=d(/c+d即某一判別概率p下,實際為0且預測為0的數量與實際為0的比例;PPV=a(/a+c)即某一判別概率p下,預測為1且實際為1的數量與預測為1的比例;NPV=d(/b+d)即某一判別概率p下,預測為0且實際為0的數量與預測為0的比例。由此可以通過Se與Sp來考察模型的覆蓋情況,通過PPV與NPV衡量模型的命中情況。如前所述,客戶潛在身份識別模型的不同之處在于,由于我們采取弱指導性方式通過綜合與“還原”Y=1與Y=0兩個建模樣本群體,同時我們的最終目的是為了識別R類群體,即需要了解是R的可能性,也要考慮非R的可能性,因此不僅考察正確的誤判率,同時也應同等考察錯誤的誤判率,通過在不同判別分數下權衡這兩種單邊誤判率獲得一個相對最低的綜合誤判率①,所以需同時考察Se與Sp、PPV與NPV的情況。基于模型的擬合及識別情況,給出建模組、驗證組1(同期驗證)及驗證組2(網點驗證)不同判別分數的情況(見表5)。根據模型不同的使用場景,簡單地說,實踐中可能關注三個方面:一是預測使用規模準確性;二是預測個體準確性;三是通過規模獲得個體準確性。如果更關注R群體的“使用規模”,則應更傾向于了解模型覆蓋情況,由表5的PanelA~PanelC比較發現,對樣本Y=1和Y=0兩群體客戶的總覆蓋情況基本在200左右達到一個較好的效果,正負覆蓋率(Se與Sp)分別在80%及70%以上,表明無論是建模組、同期驗證組還是網點驗證組,如果在200分附近應用該模型對R群體進行篩選,最終真實的R與真實的非R被準確覆蓋的可能性較好。如果更關注識別R的精準性,可著重關注模型命中情況,如表5顯示驗證組1、驗證組2的總命中在350分左右達到一個較好水平,正負命中率(PPV與NPV)均在70%以上。另外,也可在既定使用規模下,考察模型覆蓋及命中的綜合情況,這種應用場景一般出現在數據庫營銷中,例如,在成本限制下某地區對R客戶群僅能營銷S規模客戶,可以通過判別分數得到S規模,得到這一分數下的覆蓋與命中。
(二)ROC曲線接收者操作特征曲線(ReceiverOperatingCharacteristicCu-rve,ROC曲線),是分類模型常用的一種坐標分析評價工具。基于某一判別概率下的混淆矩陣,ROC曲線的橫、縱坐標分別定義為1-負的覆蓋率(1-Sp)與正的覆蓋率(Se)。由ROC曲線性質可知,與45度對角線(隨機猜測線,RandomGuessLine)相比,越是往ROC空間左上角傾斜,模型明識別或預測的效果越好(Fawcett,2006;Gonen,2007)。圖2給出建模組、驗證組1與驗證組2的ROC曲線。對比發現在建模組較好的識別效果下,各驗證組也有較為穩定的表現。
(三)Kolmogorov-Smir-nov檢驗(K-S檢驗)K-S檢驗用作樣本分布與某一已知分布的差異性檢驗,檢驗統計量為KS=sup-∞<x<∞Fn(x)-F0(x),F0為已知分布函數。本文使用K-S檢驗統計量寫為KS=max[F1(x)-F0(x)],即體現為y=1的累積分布與y=0的累積分布差的最大值,來考察模型區分兩群體差異的大小,實踐經驗認為K-S值在0.3~0.5之間模型的區分較好。本文將建模組樣本以判別分數為基礎降序排列,并按等人數把樣本組均分為10個子組(decile)。樣本中Y=1與Y=0的累積比例及累計比的差值如表6所示,得到子組5累積比例的差在各組中最大,進而我們得到模型的K-S值為0.3758,也表明模型能夠較好區分Y=1與Y=0兩個樣本群。
三、評述與展望
本文嘗試在一種弱指導性質下通過客戶行為的多重特征構建了一個可用于商業銀行業務實踐的Logistic-R類客戶潛在特征身份識別模型。依據不同業務目標,通過權衡模型覆蓋率與命中率,尋找相對最優的R客戶群。該模型在目前實踐應用中,平均識別率可達到80%,基本解決了以往無法通過數據倉庫準確獲取R類客戶的問題,為基于R群體進行一攬子金融產品的分析與研發、目標客戶的篩選與營銷等打下基礎。未來,還可嘗試結合區域經濟特征,將地緣因素納入模型進行考慮,提升模型的總體精準性。同時,也可考慮利用諸如非參數識別、組合預測等方法進一步優化提升識別率。而在商業銀行金融數據倉庫建設方面,建議著力考慮將半結構化、非結構化等“碎片式”數據信息進行收集與整合,加強對客戶行為、情緒、偏好等微觀信息的捕捉與研究,為利率市場化、互聯網金融和大數據多交融背景下的商業銀行產品創新提供有力支撐。
作者:關志新劉寅王秋雯單位:中國工商銀行產品研發中心數據挖掘團隊負責人中國工商銀行產品研發中心中國工商銀行產品研發中心