在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 探究GBDT和LR算法的用戶流失監控技術范文

探究GBDT和LR算法的用戶流失監控技術范文

本站小編為你精心準備了探究GBDT和LR算法的用戶流失監控技術參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

探究GBDT和LR算法的用戶流失監控技術

摘要:由于電信領域的移動用戶數量難以增長,企業把焦點放在如何維持現有用戶上,因此移動用戶流失與否關系到企業核心收益,如何預防用戶流失成為電信領域的一個重大挑戰。傳統的潛在用戶流失識別技術無法有效地識別精準的流失用戶,而采用機器學習算法的用戶流失預防技術則有更高的準確度。針對上述問題,提出了一種基于梯度提升決策樹算法(gbdt)和邏輯回歸(lr算法用戶流失預防模型,對參數特征進行調整,對已有移動用戶流失數據進行計算,能達到高于85.91%的用戶流失預測準確度識別,與已有其他常用預測對比表明,該算法的識別速度和準確率均擁有更好的預測效果。

關鍵詞:LR;GBDT;用戶流失;監控技術

0引言

在一個穩定的電信領域中,用戶流失監控是企業的研究焦點之一,主要是因為開發新用戶的消耗比維持已有用戶的消耗成本高出約5~6倍[1]。現有資料顯示,移動用戶每個月的平均流失率為2%~5%[2]。為了鞏固用戶人數,避免用戶流失,電信運營商需要準確計算出易流失的用戶群體。這就需要創建用戶流失預警系統來預測,通過分析用戶行為數據對用戶的流失幾率進行分類。目前有很多算法被運用在用戶流失模型中,如GA_BP、邏輯回歸、樸素貝葉斯、SVM和神經網絡等。用戶流失監控模型預測能計算出潛在離網用戶,便于運營商及時制定出挽留用戶的方案,有效預防用戶的流失,為運營商節省資金,保證收益。針對用戶流失的問題,本文利用LR算法容易并行化、運算速度快等優點,結合GBDT容易計算特征組合的特性,提出一種基于GBDT-LR混合算法的用戶流失監控技術。

1GBDT和LR算法描述

1.1GBDT算法描述

1999年,Friedman提出一種基于AdaBoost類集成學習算法的改進算法———梯度提升決策樹GBDT(GradientBoostingDecisionTree),也稱MART(MultipleAdditiveRegressionTree),屬于迭代決策樹算法。GBDT算法以CART回歸樹作為基分類器,創建數百棵樹,所有分學習器的預測結果的殘差作為下一輪分類器的訓練值,并以順序串行沿著殘差減少的角度開展梯度迭代,通過對所有基學習器的訓練結果進行加權求和,獲得最后的分類器。這種方式分類器設計簡單,訓練速度也大大加快。GBDT模型工作流程如下:(1)把訓練集{(x1,y1),(x2,y2),…,(xn,yn)},損失函數L(x1,γ),yi={-1,1}和迭代次數M,進行基分類器初始化,公式為f0(x)=argminγni=1ΣL(yi,γ)(1)(2)對m=1,2,…,M,進行如下迭代步驟:步驟一:計算i=1,2,…,n的殘差近似值,公式為rim=-墜L(yi,f(xi))墜f(xi)ΣΣf(x)=fm-1(2)步驟二:根據rim近似值擬合成一棵CART樹,Rim,j=1,2,…,Jm是該樹的葉節點域。步驟三:計算j=1,2,…,Jm的γjm值,公式為γjm=(argmiΣnγ)Σxi∈RjmL(yi,fm-1(xi)+γ)(3)步驟四:子分類器的更新,公式為fm(x)=fm-1(x)+Jmj=1ΣγjmI(x∈Rjm)(4)DOI:10.13314/j.cnki.jhbsi.2021.03.002(3)求f贊(x)的輸出最終值,公式為f贊(x)=fM(x)=f0(x)+Mm=1ΣJj=1ΣγjmI(x∈Rjm)(5)GBDT二分類算法,還需要計算正樣概率,公式為pi=11+e(-f贊(xl)(6)關于GBDT分類問題,可直接應用負二項對數似然函數計算損失函數,它的負梯度值就是殘差的近似值。DBDT的負二項對數似然函數的公式為L(y,F(x))=log(1+exp(-2yF(x))),y∈{-1,1}(7)式(7)中F(x)=12logPr(y=1|x)Pr(y=-1|x)∈∈(8)把式(7)代進式(2)可求得負梯度即近似殘差值為rim=2yi1+exp(2yiFm-1(xi)(9)

1.2LR算法描述邏輯回歸算法

(LogisticsRegression,LR)是一種廣義的線性回歸模型,應用廣泛。依據因變量類型分類,LR算法可以分成二分類LR和多分類LR算法。線性回歸算法分析的是數值,而LR算法在線性回歸計算結果的基礎上,采用sigmoid函數將其轉換成概率值,就是把自變量映射成[0,1]的范圍之間,這樣可以為后續訓練提供輸出類的概率。設x為一組連續的隨機變量,遵循Logistic分布,x的積累分布函數和密度函數為:F(x)=P(X≤x)=11+e-(x-u)/γ(10)f(x)=e-(x-u)/γγ(1+e-(x-u)/γ)2(11)(sigmoid)Logistic函數表達式為:g(z)=11+e-z(12)設定訓練集T={(x1,y1),(x2,y2),…,(xn,yn)},其中,xi∈Rn,yi∈{0,1},設P(Y=1|x)=π(x),對于模型參數w,取對數后的對數似然函數為:L(w)=ni=1Σ[yi(w•xi+b)-log(1+ew•xi+b)](13)接著使用梯度下降法求出w的估計值,最后得到預測概率:P(x)=p(y=1|x)=ewx+w01+ewx+w0(14)

2GBDT-LR混合模型邏輯回歸模型

計算便捷,訓練消耗小,對大數據處理能力好,但是其學習能力不足,訓練特征的選取要求高,預測結果欠擬合。GBDT算法訓練的特征值能有效解決LR的特征要求高問題,得到良好的分類效果。GBDT模型建立在Boost算法之上,通過迭代生成新的回歸樹,其特點適合作為新特征,便于挖掘其區分度,減少人工操作。GBDT-LR混合模型是特征交叉的運算過程,GBDT的運算結果能夠被LR作為輸入特征直接采用,減少了人工處理交叉特征[3],其模型結構如圖1所示。由圖1可知,Tree-1和Tree-2兩棵樹都是GBDT算法輸出的回歸樹。樣本數據集通過樹的路徑送達到子節點,所有子節點的輸出結果集就是LR算法的輸入特征,最后進行分類分析。GBDT-LR算法的訓練流程[4]如圖2所示,其具體的模型訓練步驟如下:步驟一:把原始數據集一分為二,將數據集A采用GBDT模型進行訓練,構造Tn決策樹組,得到強分類器。步驟二:采用GBDT算法對數據集A進行訓練預測,形成新的決策樹Tn。步驟三:對每一棵決策樹Tn進行特征編碼或者One-hot編碼,輸出向量Wn,把Wn進行重構,形成新特征供LR模型使用。步驟四:把Wn和數據集B提供給LR算法訓圖1GBDT-LR算法構造特征示意圖2練,輸出結果進行二分類統計,預測該數據集的用戶流失情況。

3實驗

3.1數據集實驗

采用的數據集來自于電信領域真實用戶的脫敏數據信息,數據集包含客戶的個人信息和客戶流失特征屬性數據,MaxComputeTable有customer_id、Device_Protection、churn、Online_Backup等21個字段,都是String類型,包括7043條記錄。其中,churn(用戶流失)字段是本實驗的目標字段。

3.2構建實驗

本實驗在阿里云人工智能PAI-Studio實驗室中進行,根據系統的預置模板構建流失用戶監控系統,實驗組件使用默認參數。GBDT-LR模型特征尋找和特征組合的功能強大,適合特征存在關聯、特征呈非線性、特征指標多等應用范圍,具有分類準確率高的特點。GBDT-LR分類器構建數據采集、數據特征提取、數據預處理、GBDT模型訓練、構建新特征、LR模型訓練、GBDT-LR模型二分類評估、模型保存等階段。

3.3GBDT-LR算法運算結果

3.3.1GBDT二分類結果分析在進行GBDT-LR算法的用戶流失預警監控實驗中,進行第一階段的GBDT算法實驗時,在指標數據經過GBDT二分類運算后得到階段評估報告。模型評估指標數據包括序號、customerid、citizen、tenure、monthlycharges、totalcharges、KV和churn等8個字段,其中特征編碼后的KV字段是關鍵數據,KV表的格式結構是Key:Value(Key表示index,Value表示特征值)。KV表支持多種算法,為節省存儲空間只保留非零數據,所以表示特征量大,可以達到上百億。GBDT-LR算法第一階段前10條實驗結果如表1所示。在表1中,GBDT算法實驗包括了KV字段,其中,KV字段的第一行數據是“4:1,9:1,13:1,18:1,23:1,26:1”,這表示第一行數據4、9、13、18、23、26索引的值都是1,其它索引的值都是0,所以省略不計。

3.3.2GBDT-LR與其他算法二分類評估結果比較本實驗場景比較了GBDT-LR分類器與其他6種分類器對用戶流失風險預警的預測結果,其中包括SVM、GBDT、LR、KNN、PS-SMART和GBDT-KNN,使用的分類性能指標為AUC、KS和F1-score(F1值)。實驗結果如表2所示。由表2可知,使用SVM、GBDT、LR、KNN、PS-SMART、GBDT-LR、GBDT-KNN等7種算法進行用戶流失風險預警預測,AUC面積數值均高于80%,其中,GBDT-LR模型的AUC面積數值最高,達到85.91%。特別地,單個LR算法預測AUC結果約為82.58%,而GBDT算法的預測AUC結果約為81.25%,都低于GBDT-LR模型的85.91%。復合PS-SMART、GBDT-KNN算法的預測AUC結果沒有提高,反而弱于單個GBDT算法,主要影響因素是KNN算法是高度依賴距離的模型,數據維度的加大會導致兩個目標點的距離增大,特別是稀疏矩陣中,會導致復合算法的預測面積數值下降。GBDT+LR算法的AUC面積數值排在榜首,主要原因是LR算法可以在矩陣數據高維度稀疏特征下進行預測,能彌補GBDT的擬合問題,從而提高整體預測效果。綜上所述,GBDT-LR算法在用戶流失監控預測系統中效果更優,符合用戶流失監控預測系統的設計要求。

4結語

本文提出了將學習算法GBDT與LR算法相結合,設計并實現了一個可以監控用戶流失的預測模型,該模型可以處理數據在高緯度稀疏特征下進行較高面積數值的預測。實驗證明,相對于SVM、GBDT、LR、KNN、PS-SMART、GBDT-KNN等預測算法,本文模型具有較好的AUC面積數值,利用LR算法彌補了GBDT的擬合問題,提高了預測速度,具有85.91%的AUC值。此外,該模型在面對大數據的預測服務時,具備較快的預測速度和較大的AUC面積數值。對于不同版本號、不同服務器的請求下本模型的準確度未知,仍需要后續的深入研究。

參考文獻:

[1]歐陽曄,楊愛東,孟凡語.一種博弈論輔助的機器學習算法檢測用戶流失行為[J].電信科學,2020,36(6):79-89.

[2]汪明達,周俏麗,蔡東風.采用混合模型的電信領域用戶流失預測[J].計算機工程與應用,2019,55(24):214-221+270.

[3]王斌宇,柴驊迅,王永健,等.基于GBDT+LR分類器的工業過程區域控制性能評價[J].石油化工自動化,2020,56(3):21-26+30.

[4]王垚,李為,吳克河,等.GBDT與LR融合模型在加密流量識別中的應用[J].計算機與現代化,2020(3):93-98.

作者:梁家富 邱新泳 單位:廣州科技職業技術大學

主站蜘蛛池模板: 在线免费视频国产 | 亚洲国产欧美一区二区欧美 | 开心婷婷激情五月 | 9久视频 | 羞羞网站免费 | 日本精品视频在线播放 | 亚洲欧洲久久久精品 | 在线观看亚洲成人 | 亚洲天堂中文网 | 亚洲精品高清中文字幕完整版 | 欧美日韩国产亚洲一区二区三区 | 五月天激激婷婷大综合丁香 | 亚洲福利电影一区二区? | 亚洲狠狠成人综合网 | 四虎永久在线精品波多野结衣 | 亚洲国产日韩在线人成下载 | 一级毛片高清免费播放 | 中文国产成人精品久久水 | 国产一级视频在线 | 日韩欧美自拍 | 亚洲福利精品 | 在线视频日韩 | 波多野结衣在线视频播放 | 亚洲一二三四 | 国产短视频在线观看 | 五月综合色 | 成人精品视频一区二区在线 | 六月婷婷综合 | 中文字幕一级片 | 自拍视频第一页 | 亚洲看片 | 99精品欧美一区二区三区综合在线 | 性欧美大战久久久久久久野外黑人 | 亚洲狠狠成人综合网 | 羽田真理n1170在线播放 | 麻豆精品久久久一区二区 | 国产成人精品日本亚洲直接 | 亚洲视频免费在线看 | 五月天色婷婷在线 | 自拍视频一区 | 国产午夜亚洲精品理论片不卡 |