本站小編為你精心準備了經濟統計中數據挖掘技術分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
社會經濟的發展,使得經濟統計工作越來越重要,統計的數據能夠將整個社會經濟運行的情況進行準確科學反映,同時能夠為國家政策的調整提供參考依據。一般而言,要想確保經濟數據的實效性、可信性以及真實性,必須要在經濟統計中充分應用數據挖掘技術,這樣才能有效保證經濟統計工作的順利進行。隨著數據挖掘技術在經濟統計中的作用日益突出,因此社會各界開始廣泛關注其在社會活動中的應用。本文就對經濟統計中數據挖掘技術的具體應用進行深入分析和探討。
關鍵詞:
經濟統計;數據挖掘技術;應用
自改革開放以來,我國的經濟發展較為迅速,經濟建設活動日益增多,累積了大量的經濟統計數據。由于信息的多樣性以及數據的復雜性,使得工作人員在統計數據時,僅僅只采用其中數理知識,而沒有深入挖掘相關的統計資料。隨著科學技術的發展,數據挖掘技術在經濟統計中發揮出了十分重要的作用,其能夠對數據進行縱橫式開發,并通過挖掘基礎數據,獲得更多有用的信息,從而滿足社會對統計數據的需求[1]。一般在社會經濟管理活動中,在對經濟數據進行統計管理時,必須要確保統計數據的真實性以及實用性。數據挖掘技術作為一種經濟數據統計技術,能夠有效促進經濟數據統計活動的順利進行,其在經濟數據統計活動中的應用方法主要包括三種:一是預處理方法;二是決策樹方法;三是集成化處理方法。
一、處理方法的有效應用
在經濟數據統計活動中,預處理方法是最為基礎的處理方式,其主要是對基礎數據信息進行智能分析。一般來說,數據挖掘受基礎數據信息的限制,不能代替經濟數據系統的功能,并且在數據挖掘系統中,其數據基礎的經濟統計數據信息具有多樣性和復雜性,因此必須要對經濟統計數據信息進行預處理[2]。在處理統計數據信息時,主要就是對不準確、不正確以及真實的數據進行處理,并分析不同經濟統計數據信息之間的差距。數據清理是指對存在問題的數據進行處理的過程,目前在對數據進行清理時,主要采用預測法、平滑法以及均值法。一般如果基礎數據中的某個數據點是噪聲數據以及空值時,對其進行處理時可以采用均值法,利用數據庫中所有該屬性已知的屬性均值,并對其的空缺進行填補,從而確保數據挖掘系統能夠正常整理和分析基礎數據,使統計分析的數據具備較高的準確度。其中數據點的取值用Ci表示,數據點前后不為空的數據點用Cj表示,計算數據點所取的參考數據點數量用K表示。平滑法行為一種計算方法,其也是對基礎數據中噪聲數據以及空值進行計算。但是與均值法有所不同,其是用加權平均數來代替平均數,并對計算過程中提取的數據對數據結果的影響權重進行綜合考慮,因此平滑法計算出的數據結果更為真實準確。其中數據點的取值用Ci表示,數據點前后不為空的數據點用Cj表示,計算數據點所取的參考數據點數量用K表示,Cj數據點的權值用Wj表示。
二、策樹方法的有效應用
在應用數據挖掘技術的過程中,系統經過分析與總結之后,必須要對數據的輸出分析,一般數據的輸出形式直接影響著使用者的經濟管理決策。決策樹作為一種分類方法,其更為直觀與快速,采用決策樹方法的關鍵就是對決策樹進行構建。首先必須要利用訓練集監理決策樹,并對其進行精簡,建立出輸出分析的模型。然后利用決策樹對輸入的數據進行分類,可以從決策樹根部開始進入樹丫,直到輸入數據的分類滿足條件之后停止。一般其停止分割時,必須要滿足兩個條件:一是某個節點上的全部數據屬于同一類別;二是輸入數據沒有分類屬性進行再分割。值得注意的是,在構建完決策樹之后,必須要結合使用者的實際情況和要求,對決策樹進行“剪枝”,因為使用訓練集能夠影響決策樹本身數據的輸出,這樣能夠有效降低該數據產生起伏影響。
三、成化處理方法的有效應用
一般在對數據挖掘技術進行應用時,由于數據統計的主體不同以及統計的標準不統一,往往會出現數據集成問題,因此為了保證經濟數據的有效集成以及統計的準確性,必須要考慮數據集成過程中的模式集成以及冗余問題。
(一)模式集成社會經濟活動中,經濟數據的統計很多來自于民間統計組織,導致統計內容過于廣泛,因此在數據挖掘過程中,在集成經濟數據時必須要進行實體識別。如在數據挖掘過程中,怎樣對一個數據庫中的“std-no”與另一數據庫中的“std-id”是否表示同一實體進行確定,目前主要是利用數據庫與數據庫之間的含元數據對比,從而提高實體識別的質量和效率。
(二)冗余問題經濟統計數據經過數據挖掘技術的加工之后,能夠達到最簡狀態。在數據挖掘過程中,必須要精簡其與其他數據之間存在正相關關系的數據項目,這樣才能使數據庫中數據量保持在較低的水平,便于數據的應用和管理[3]。一般在數據挖掘中容易出現冗余問題,如國民生產總值,其數值的計算主要是利用總人口屬性與國內生產總值加以計算。一般在判斷冗余屬性時,主要是利用相關度的對比。其中元組的個數用n表示,屬性A和屬性B的平均值用以及表示,屬性A和屬性B的標準方差用σA以及σB表示。其中如果rA,B>0,則說明屬性A與屬性B呈正相關,屬性A增大,則屬性B也隨之增大;如果rA,B=0,則說明屬性A與屬性B沒有直接關系,彼此相互獨立;如果rA,B<0,則說明屬性A與屬性B呈負相關,屬性A增大,屬性B則減小。
四、結束語
一般而言,對經濟數據進行處理時,傳統的數據處理方式是利用樹數理統計學的知識與軟件,開發利用經濟統計數據庫中的數據,但是這樣的處理方式往往形式單一,無法對數據進行深入挖掘,因此無法有效滿足社會的需求。但是數據挖掘能夠將虛假的數據加以剔除,從而提高數據的質量,并且能夠對數據之間的聯系進行深入挖掘,充分有效挖掘數據。因此在經濟統計中應用數據挖掘技術顯得十分之必要。
[參考文獻]
[1]王康.關于數據挖掘技術在經濟統計中的應用[J].財經界(學術版),2011,05:98.
[2]郝巖.數據挖掘技術在經濟統計中的應用探究[J].現代經濟信息,2013,11:294.
[3]崔丹.數據挖掘技術在經濟統計中的應用探索[J].財經界(學術版),2014,03:149.
[4]劉秀華.淺談數據挖掘技術在經濟統計中的應用[J].商場現代化,2014,23:280
作者:田計樂 單位:河北省雞澤縣衛生監督所