中文字幕不卡免费视频,性色欧美,亚洲国产天堂久久综合9999

本站小編為你精心準備了探究GBDT和LR算法的用戶流失監控技術參考范文，愿這些范文能點燃您思維的火花，激發您的寫作靈感。歡迎深入閱讀并收藏。

探究GBDT和LR算法的用戶流失監控技術

摘要：由于電信領域的移動用戶數量難以增長，企業把焦點放在如何維持現有用戶上，因此移動用戶流失與否關系到企業核心收益，如何預防用戶流失成為電信領域的一個重大挑戰。傳統的潛在用戶流失識別技術無法有效地識別精準的流失用戶，而采用機器學習算法的用戶流失預防技術則有更高的準確度。針對上述問題，提出了一種基于梯度提升決策樹算法（gbdt）和邏輯回歸（lr）算法的用戶流失預防模型，對參數特征進行調整，對已有移動用戶流失數據進行計算，能達到高于85.91%的用戶流失預測準確度識別，與已有其他常用預測對比表明，該算法的識別速度和準確率均擁有更好的預測效果。

關鍵詞：LR；GBDT；用戶流失；監控技術

0引言

在一個穩定的電信領域中，用戶流失監控是企業的研究焦點之一，主要是因為開發新用戶的消耗比維持已有用戶的消耗成本高出約5~6倍[1]。現有資料顯示，移動用戶每個月的平均流失率為2%~5%[2]。為了鞏固用戶人數，避免用戶流失，電信運營商需要準確計算出易流失的用戶群體。這就需要創建用戶流失預警系統來預測，通過分析用戶行為數據對用戶的流失幾率進行分類。目前有很多算法被運用在用戶流失模型中，如GA_BP、邏輯回歸、樸素貝葉斯、SVM和神經網絡等。用戶流失監控模型預測能計算出潛在離網用戶，便于運營商及時制定出挽留用戶的方案，有效預防用戶的流失，為運營商節省資金，保證收益。針對用戶流失的問題，本文利用LR算法容易并行化、運算速度快等優點，結合GBDT容易計算特征組合的特性，提出一種基于GBDT-LR混合算法的用戶流失監控技術。

1GBDT和LR算法描述

1.1GBDT算法描述

1999年，Friedman提出一種基于AdaBoost類集成學習算法的改進算法———梯度提升決策樹GBDT（GradientBoostingDecisionTree），也稱MART（MultipleAdditiveRegressionTree），屬于迭代決策樹算法。GBDT算法以CART回歸樹作為基分類器，創建數百棵樹，所有分學習器的預測結果的殘差作為下一輪分類器的訓練值，并以順序串行沿著殘差減少的角度開展梯度迭代，通過對所有基學習器的訓練結果進行加權求和，獲得最后的分類器。這種方式分類器設計簡單，訓練速度也大大加快。GBDT模型工作流程如下：（1）把訓練集{（x1，y1），（x2，y2），…，（xn，yn）}，損失函數L（x1，γ），yi={-1，1}和迭代次數M，進行基分類器初始化，公式為f0（x）=argminγni=1ΣL（yi，γ）（1）（2）對m=1，2，…，M，進行如下迭代步驟：步驟一：計算i=1，2，…，n的殘差近似值，公式為rim=-墜L（yi，f（xi））墜f（xi）ΣΣf（x）=fm-1（2）步驟二：根據rim近似值擬合成一棵CART樹，Rim，j=1，2，…，Jm是該樹的葉節點域。步驟三：計算j=1，2，…，Jm的γjm值，公式為γjm=（argmiΣnγ）Σxi∈RjmL（yi，fm-1（xi）+γ）（3）步驟四：子分類器的更新，公式為fm（x）=fm-1（x）+Jmj=1ΣγjmI（x∈Rjm）（4）DOI:10.13314/j.cnki.jhbsi.2021.03.002（3）求f贊（x）的輸出最終值，公式為f贊（x）=fM（x）=f0（x）+Mm=1ΣJj=1ΣγjmI（x∈Rjm）（5）GBDT二分類算法，還需要計算正樣概率，公式為pi=11+e（-f贊（xl）（6）關于GBDT分類問題，可直接應用負二項對數似然函數計算損失函數，它的負梯度值就是殘差的近似值。DBDT的負二項對數似然函數的公式為L（y，F(x)）=log（1+exp（-2yF(x)）），y∈{-1，1}（7）式（7）中F(x)=12logPr（y=1|x）Pr（y=-1|x）∈∈（8）把式（7）代進式（2）可求得負梯度即近似殘差值為rim=2yi1+exp（2yiFm-1（xi）（9）

1.2LR算法描述邏輯回歸算法

（LogisticsRegression，LR）是一種廣義的線性回歸模型，應用廣泛。依據因變量類型分類，LR算法可以分成二分類LR和多分類LR算法。線性回歸算法分析的是數值，而LR算法在線性回歸計算結果的基礎上，采用sigmoid函數將其轉換成概率值，就是把自變量映射成[0，1]的范圍之間，這樣可以為后續訓練提供輸出類的概率。設x為一組連續的隨機變量，遵循Logistic分布，x的積累分布函數和密度函數為：F（x）=P（X≤x）=11+e-(x-u)/γ（10）f（x）=e-(x-u)/γγ（1+e-(x-u)/γ）2（11）（sigmoid）Logistic函數表達式為：g（z）=11+e-z（12）設定訓練集T={（x1，y1），（x2，y2），…，（xn，yn）}，其中，xi∈Rn，yi∈{0，1}，設P（Y=1|x）=π（x），對于模型參數w，取對數后的對數似然函數為：L（w）=ni=1Σ［yi（w•xi+b）-log（1+ew•xi+b）］（13）接著使用梯度下降法求出w的估計值，最后得到預測概率：P（x）=p（y=1|x）=ewx+w01+ewx+w0（14）

2GBDT-LR混合模型邏輯回歸模型

計算便捷，訓練消耗小，對大數據處理能力好，但是其學習能力不足，訓練特征的選取要求高，預測結果欠擬合。GBDT算法訓練的特征值能有效解決LR的特征要求高問題，得到良好的分類效果。GBDT模型建立在Boost算法之上，通過迭代生成新的回歸樹，其特點適合作為新特征，便于挖掘其區分度，減少人工操作。GBDT-LR混合模型是特征交叉的運算過程，GBDT的運算結果能夠被LR作為輸入特征直接采用，減少了人工處理交叉特征[3]，其模型結構如圖1所示。由圖1可知，Tree-1和Tree-2兩棵樹都是GBDT算法輸出的回歸樹。樣本數據集通過樹的路徑送達到子節點，所有子節點的輸出結果集就是LR算法的輸入特征，最后進行分類分析。GBDT-LR算法的訓練流程[4]如圖2所示，其具體的模型訓練步驟如下：步驟一：把原始數據集一分為二，將數據集A采用GBDT模型進行訓練，構造Tn決策樹組，得到強分類器。步驟二：采用GBDT算法對數據集A進行訓練預測，形成新的決策樹Tn。步驟三：對每一棵決策樹Tn進行特征編碼或者One-hot編碼，輸出向量Wn，把Wn進行重構，形成新特征供LR模型使用。步驟四：把Wn和數據集B提供給LR算法訓圖1GBDT-LR算法構造特征示意圖2練，輸出結果進行二分類統計，預測該數據集的用戶流失情況。

3實驗

3.1數據集實驗

采用的數據集來自于電信領域真實用戶的脫敏數據信息，數據集包含客戶的個人信息和客戶流失特征屬性數據，MaxComputeTable有customer_id、Device_Protection、churn、Online_Backup等21個字段，都是String類型，包括7043條記錄。其中，churn（用戶流失）字段是本實驗的目標字段。

3.2構建實驗

本實驗在阿里云人工智能PAI-Studio實驗室中進行，根據系統的預置模板構建流失用戶監控系統，實驗組件使用默認參數。GBDT-LR模型特征尋找和特征組合的功能強大，適合特征存在關聯、特征呈非線性、特征指標多等應用范圍，具有分類準確率高的特點。GBDT-LR分類器構建數據采集、數據特征提取、數據預處理、GBDT模型訓練、構建新特征、LR模型訓練、GBDT-LR模型二分類評估、模型保存等階段。

3.3GBDT-LR算法運算結果

3.3.1GBDT二分類結果分析在進行GBDT-LR算法的用戶流失預警監控實驗中，進行第一階段的GBDT算法實驗時，在指標數據經過GBDT二分類運算后得到階段評估報告。模型評估指標數據包括序號、customerid、citizen、tenure、monthlycharges、totalcharges、KV和churn等8個字段，其中特征編碼后的KV字段是關鍵數據，KV表的格式結構是Key：Value（Key表示index，Value表示特征值）。KV表支持多種算法，為節省存儲空間只保留非零數據，所以表示特征量大，可以達到上百億。GBDT-LR算法第一階段前10條實驗結果如表1所示。在表1中，GBDT算法實驗包括了KV字段，其中，KV字段的第一行數據是“4：1，9：1，13：1，18：1，23：1，26：1”，這表示第一行數據4、9、13、18、23、26索引的值都是1，其它索引的值都是0，所以省略不計。

3.3.2GBDT-LR與其他算法二分類評估結果比較本實驗場景比較了GBDT-LR分類器與其他6種分類器對用戶流失風險預警的預測結果，其中包括SVM、GBDT、LR、KNN、PS-SMART和GBDT-KNN，使用的分類性能指標為AUC、KS和F1-score（F1值）。實驗結果如表2所示。由表2可知，使用SVM、GBDT、LR、KNN、PS-SMART、GBDT-LR、GBDT-KNN等7種算法進行用戶流失風險預警預測，AUC面積數值均高于80%，其中，GBDT-LR模型的AUC面積數值最高，達到85.91%。特別地，單個LR算法預測AUC結果約為82.58%，而GBDT算法的預測AUC結果約為81.25%，都低于GBDT-LR模型的85.91%。復合PS-SMART、GBDT-KNN算法的預測AUC結果沒有提高，反而弱于單個GBDT算法，主要影響因素是KNN算法是高度依賴距離的模型，數據維度的加大會導致兩個目標點的距離增大，特別是稀疏矩陣中，會導致復合算法的預測面積數值下降。GBDT+LR算法的AUC面積數值排在榜首，主要原因是LR算法可以在矩陣數據高維度稀疏特征下進行預測，能彌補GBDT的擬合問題，從而提高整體預測效果。綜上所述，GBDT-LR算法在用戶流失監控預測系統中效果更優，符合用戶流失監控預測系統的設計要求。

4結語

本文提出了將學習算法GBDT與LR算法相結合，設計并實現了一個可以監控用戶流失的預測模型，該模型可以處理數據在高緯度稀疏特征下進行較高面積數值的預測。實驗證明，相對于SVM、GBDT、LR、KNN、PS-SMART、GBDT-KNN等預測算法，本文模型具有較好的AUC面積數值，利用LR算法彌補了GBDT的擬合問題，提高了預測速度，具有85.91%的AUC值。此外，該模型在面對大數據的預測服務時，具備較快的預測速度和較大的AUC面積數值。對于不同版本號、不同服務器的請求下本模型的準確度未知，仍需要后續的深入研究。

參考文獻：

［1］歐陽曄，楊愛東，孟凡語.一種博弈論輔助的機器學習算法檢測用戶流失行為［J］.電信科學，2020，36（6）：79-89.

［2］汪明達，周俏麗，蔡東風.采用混合模型的電信領域用戶流失預測［J］.計算機工程與應用，2019，55（24）：214-221+270.

［3］王斌宇，柴驊迅，王永健，等.基于GBDT+LR分類器的工業過程區域控制性能評價［J］.石油化工自動化，2020，56（3）：21-26+30.

［4］王垚，李為，吳克河，等.GBDT與LR融合模型在加密流量識別中的應用［J］.計算機與現代化，2020（3）：93-98.

作者：梁家富邱新泳單位：廣州科技職業技術大學

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

探究GBDT和LR算法的用戶流失監控技術范文

擴展閱讀

推薦期刊

教育探究

農村青少年科學探究

探究鐵路經濟問題

精品推薦