本站小編為你精心準備了經濟統計數據挖掘論文參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1數據挖掘技術在統計工作中的適用性分析
1.1較高的有效性數據挖掘技術作為一種數據的深加工技術,其本身是帶有鮮明的目的性的,在實際應用活動中能夠對長時間積累下來的經濟統計數據進行基于數據使用者要求的深入加工。在實踐應用活動中主要有兩種重要的應用形式,一種是對積累經濟統計數據的管理高效化處理,一種是對現有經濟數據的目的性分析。其中第一種分析方式是從經濟數據管理的角度出發的,在應用中主要是以固有數據信息的統計、分類為基礎,將原本混亂的數據庫信息進行科學、系統的歸類,保證統計數據管理的高效性和使用的便利性。另一種工作方式是一種經濟數據的再加工過程,以鮮明的數據統計、分析目標為指引對原有數據的呈現形式、組成內容和關聯形式進行重新加工,以保證經濟統計數據能夠最大限度地服務于管理者的需求。
1.2綜合應用性強如前文所述,數據挖掘技術是一個工具系統而不是單一的工具,能夠實現使用主體的各種信息需求,隨著現代社會經濟的快速發展,當前我國經濟管理的各個部門都需要大量的經濟統計信息來作為經濟管理決策的基礎。但是因為各個管理部門經濟管理的領域不同、經濟管理的方式不同、經濟的管理權限不同,所以相應的經濟統計數據呈現形式的需求就不同。這就為經濟數據統計系統提出了更高的要求,其不僅要對符合各個經濟管理部門需求的數據內容進行統計,同時要將統計完成的數據換算成各種不同的呈現形式,并根據統計信息的來源和統計信息的計算方式對其可靠性進行評估[2]。最終這些數據信息的輸出格式還應該符合所服務的經濟管理部門管理系統的格式要求,保證統計數據能夠在管理部門的管理系統中正常錄入、應用,數據挖掘技術很好地滿足了上述的復雜經濟數據管理要求,其功能的綜合性促進了其應用深度的提高和范圍的擴大。
1.3宏觀數據庫有利于數據挖掘技術的應用當前因為經濟管理部門的職權較為分散,各個經濟管理部門的經濟統計數據需求不盡相同。所以我國的經濟統計活動絕大多數還采用傳統的經濟統計方法,統計收集的經濟信息存在一定的局限性,不能夠服務于經濟管理活動的整體,或者造成一些數據統計工作的重復,對經濟數據統計工作造成了一系列的質量和效率上的影響。經濟數據統計活動急需一個能夠整合各個統計系統,實現統計數據信息融合的新技術。宏觀經濟統計數據庫為數據挖掘技術的開展提供了平臺,數據管理系統的經濟統計信息要正確無誤,然后經過數據挖掘技術的整合,就能得到更加豐富的數據資源[3]。
2數據挖掘技術的應用
在社會經濟管理活動中,管理主體對經濟統計數據的要求主要有兩個。一個是統計數據的真實性、一個是數據統計信息的實用性。單就這兩個經濟統計數據要求而言,數據挖掘技術能夠很好地滿足經濟統計工作的需求,是適用性極強的一種經濟數據統計技術,其在具體的經濟數據統計活動中主要有以下三種應用方法。
2.1預處理方法在經濟數據統計活動中,最為基礎的一種處理方式就是經濟數據的預處理方法,因為數據挖掘本身是一種基于提供基礎信息的智能分析技術。其本身是受基礎經濟信息限制的,不可能無中生有代替經濟數據收集系統的功能。所以所有作為數據挖掘系統數據基礎的經濟統計數據信息都應該進行預處理,處理的內容主要包括對這些數據中不正確、不真實、不準確,以及不同經濟統計數據信息之間差距較大的現象。對這些基礎數據存在的問題進行處理的過程被稱為數據清理,當前數據清理主要采用的方法有均值法、平滑法和預測法。其中均值法是現代分析技術中模糊理念的一種應用形式,當基礎數據中的一個數據點是空值或者噪聲數據的時候,可以采用均值法進行處理,即用數據庫中所有該屬性已知的屬性均值來填補空缺。保證數據挖掘系統對基礎數據的分析和整理能夠正常進行,得出相對而言準確度較高的統計分析數據。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示當前數據點進行計算所取的參考數據點數量[4]。平滑法依然是對基礎數據中空值和噪聲數據的計算方法,其與均值法的區別是用加權平均數代替了平均數,考慮了計算過程中提取的每一個數據對數據結果的影響權重,所以計算出的結果往往更加接近真實的數值。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示為對當前數據點進行計算所取的數據點數量。WJ表示Cj數據點的權值。
2.2集成化處理方法在數據挖掘技術的應用活動中,因為相同地區的數據統計主體不同,或者在不同地區對相同經濟數據的統計標準不統一,會產生一系列的數據集成問題,如何對這些調查方向不同或者是呈現方式不同的數據進行有效集成而不影響經濟數據統計的準確性,是數據挖掘技術的重要任務。在具體的數據集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當前因為社會經濟活動中經濟數據的統計內容過于廣泛,很多經濟數據統計并不是來自于官方的統計局而是來自一些民間統計組織,或者是由一線社會經濟主體直接提供的經濟數據,在數據挖掘過程中將這些來自多個數據源存在多種數據呈現模式的經濟數據信息進行集成就涉及實體識別的問題。例如在數據挖掘過程中如何確定一個數據庫中“std-id”與另一個數據庫中的“std-no”是否表示同一實體,當前一般使用數據庫與數據庫之間的含元數據對比來保證實體識別高效率和高質量[6]。
2.2.2冗余問題數據挖掘本身是對經濟統計數據的一種深加工技術,經過其加工的經濟統計技術應該在本質上達到最簡狀態。在數據挖掘過程中要將與其他數據呈現某種正相關關系的數據項目進行精簡,以保證數據庫中數據量維持在一個較低的水平,為數據管理和應用提供便利。在經濟數據挖掘活動中人均國民生產總值就是典型的冗余屬性,因為其數值是可以通過國內生產總值和總人口屬性計算出來的,所以類似人均國民生產總值這種冗余屬性在數據挖掘過程中就應該精簡,應用的時候在利用國民生產總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關度對比來實現。其中n表示元組的個數,分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標準方差,在這一公式中如果則表示A、B兩個屬性是正相關,也就是說A越大B就越大,值越高二者的正相關關系就越密切;如果則表示屬性A、B之間沒有直接關系,是相互獨立的;如果則表示A、B兩個屬性呈負相關,屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負相關關聯關系就越密切。
2.3決策樹方法在數據挖掘技術應用過程中,經過系統的分析和總結以后,分析數據的輸出是一個關鍵的環節,其輸出的數據形式會對使用者的經濟管理決策產生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應用的關鍵是決策樹的構建,具體而言主要分為兩步:第一步是利用訓練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構建完畢的決策樹進行輸入數據的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進入到樹干、枝丫,直到輸入數據的分類滿足了某種條件而停止。在具體的應用中停止分割的條件有兩個:一個是當一個節點上的所有數據都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數據進行再分割[8]。在決策樹構建完成后,還要根據使用者的具體要求對決策樹進行“剪枝”,剪枝的主要目的是要降低因為使用訓練集而對決策樹本身數據輸出產生的起伏影響。
3結語
經濟統計活動是現代社會經濟管理的重要基礎數據提供主體,其本身對社會主義現代化市場經濟建設的影響是廣泛而深遠的,所以其運行過程中的質量和效率至關重要。數據挖掘技術是針對現代數據管理活動中存在的數量基數大、構成復雜和數據缺失現象嚴重等客觀問題而研發的一種高效的數據深度加工技術,其在經濟統計中的應用能夠更好地滿足經濟統計的需求。本文從數據挖掘技術概述、數據挖掘技術在統計工作中的適用性分析、數據挖掘技術的應用三個方面對這一問題進行了簡要的分析,以期為數據挖掘技術在經濟統計中應用水平的提升提供支持和借鑒。
作者:李榮單位:懷化學院經濟系