在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 穩健統計對經濟的作用范文

穩健統計對經濟的作用范文

本站小編為你精心準備了穩健統計對經濟的作用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

穩健統計對經濟的作用

作者:李伯東李一微單位:浙江申嘉湖杭高速公路有限公司浙江省交通工程建設集團

一、以人均收入水平指標為例對統計穩健性的思考

在現實生活中,公眾很有可能對官方公布的人均可支配收入或人均工資之類的指標數據不以為然,認為這些指標具有偏高的傾向。拋開統計誤差和統計口徑的影響,對人均指標產生歧義的主要原因在于收入分配是一種偏態的分布,隨著影響貧富差異的因素增多,偏態呈日益嚴重的態勢。同時收入分布中存在著異常極端的離群值,也會導致收入平均值的不正常上升。

平均數,特別是算術平均數是我們在各種媒體上經常看到和聽到的經濟條件指標,對其觀察值的代表性研究一般是用以方差為主的若干類指標。然而均值和方差應用的條件則往往被人們所忽視,典型的表現就是不考慮觀察值本身具有何種分布形態分布的偏斜程度以及觀察值中是否存在一定量的離群值。

就數據的純度量特征而言,若收入數據中存在著百萬甚至億萬收入的富翁時,會極大地拉動人均收入的上升。這表明用算術平均方法計算的人均收入指標受到離群值的較大干擾,這種影響有時甚至會抵銷掉其他絕大多數數據對均值的影響。在這種情況下,算術平均值并不是一個好的統計指標。相反,對于人均收入之類位置特征值而言,若以中位收入代替算術人均收入,則會對極值的干擾有較大的抗御性。就收入分布而言,中位收入較之算術平均收入是一個具有抗離群值干擾能力的穩健統計量。

人均收入水平的統計指標,除了可以用可支配總收入除以平均人數的方法得到以外,更多的情況下,是通過官方統計系統城調隊的1000戶問卷調查產生的,并據此來推斷總體的人均指標。相應的統計量和檢驗值的解釋都是建立在正態分布的假定之下的。因此人們往往認為只要正態分布的假定得到滿足或基本滿足就可以大膽使用人均收入指標,而不必再擔心它的穩健性,因而可使用很多方法來檢驗收入分布是否為正態。

若沒有關于總體分布精確的先驗信息時,則只要樣本容量n足夠大,就可以認為樣本分布是總體分布的自然逼近,但是當n很小時,是無法判斷分布的正態性的。對于收入分布這樣一種人的經濟標志的分布而言,1000個樣本單位并不能從實際上表明它具有一個足夠大的樣本容量。相反,對于人類身體、體重之類的自然特征指標,一般均可以直接假定它的分布正態性。這也表明人的經濟特性分布較之人的自然特征分布更加復雜,而收入分布就是其中的一個典型。收入分布中存在的一定數量的離群值,雖然占數據個數總量的比例并不高,但是對算術人均收入的影響非常大,如通常所說的20%的高收入人群擁有80%的收入總量。人們試圖通過正態分布擬合檢驗的辦法來考察離群值對正態性的影響,問題在于有些正態性的檢驗結果對少量離群值對正態性造成的偏差,無法得到恰當的結論(例如利福斯正態性檢驗方法)。因而收入數據中的離群值對于基于正態假定下才有用的統計量會產生破壞性的影響。

收入分布的復雜性及很難確認的狀況,使得傳統的人均收入指標局限性凸現,用它來描述和推斷收入水平,以及制定相應收入政策、就業政策和稅收政策就顯得不是很全面,有時甚至會得出錯誤的結論。因此尋求穩健統計方法和計算穩健統計量,對于收入分布來講是非常重要的。

穩健統計量是相對于傳統統計量而言的,兩者是在比較中發展起來的。傳統統計量往往側重的是統計量的一系列計算程序。而穩健統計則將對統計量代表性的討論,放在對數據分析特征的認識基礎之上。穩健統計量首先強調對分布特征的探索,然后才是統計量的計算過程問題。就人均收入指標而言,若不明了收入分布的特征,則人均收入指標的解釋力就會大大降低甚至起到負作用

二、穩健統計的基本思想

在高斯發現/正態分布0以及最小二乘法提出之時,就有了/統計穩健性0的思想萌芽。正態分布下的各種統計量,包括均值、眾數等均有較好的估計量特征,尤其是在對稱分布下這些特征表現得更加充分,即使在稍有偏態的對稱分布中,這些統計量也具有一定的抗御離群值的能力。應用得非常廣泛的最小二乘估計量在和正態分布的前提結合的時候,也具有很多眾所周知的優良性質。

正態分布假定下各種參數估計和假設檢驗的方法,諸如以樣本均值估計總體期望值,以樣本方差估計總體方差,檢驗統計量在原假設成立時服從正態分布的檢驗規則建立等等,都是優良的估計量和估計方法,無偏性、有效性和一致性等高效率性無論怎樣論證都會得到理想的結論。正態分布下各種統計方法得以快速發展。

但是從對經濟、社會、管理以及自然科學中各種現象的實際問題和數據分析中發現,正態分布的基本假定有時不能滿足,或者即使是一個正態分布,但是否是理想化的正態分布也是值得懷疑的,人們往往發現很多數據分布是非正態和非對稱的。有些統計專家甚至建議,正態分布可能不會代表大多數的分布形態,最好以其發明者的姓氏命名為高斯分布,與其他分布在名稱上同等待遇。對很多數據分布形態的研究也發現,正態分布是一種理論上的分布,實際上數據至多是近似的正態分布,具體表現為適度偏斜的正態分布,而這種偏斜的程度可能會對估計量的穩健性產生致命的影響。如果某種統計方法對偏高正態假定的分布十分敏感,則就不是穩健的統計方法。

對穩健統計問題較早進行理論探討的是t分布的發明者戈賽特等人。研究發現,若正態分布假定在實踐中不能被滿足,那么在正態分布基礎上建立起來的估計和推斷方法的價值就值得懷疑并能導致錯誤結論的發生。如果放寬對總體分布的正態性假定,則可用中位數等統計量來對總體的分布進行描述或者推斷。這也使得不規定總體分布函數確切形式的非參數方法有了一定的應用空間。對非參數方法的應用招致批評,主要是基于當總體近似正態分布時,非參數方法沒有有效利用有關分布的先驗信息,因而方法的效率不高。但是當總體分布為近似正態時,常規的正態方法仍然有可能導致估計量不能達到最優,甚至不會達到近似最優。

在加拿大官方統計中,有三項商務方面的調查運用統計穩健的方法整理有關經濟指標的多元數據,以發現和處理離群值數據。這三項調查分別是制造業月度調查(MSM)、批發和零售貿易五年度調查(P13)、工作場所和職業工作調查(WES)。多元統計分析中穩健統計方法的應用,主要是位置向量和協方差矩陣的穩健估計。對于具有離群值數據的統計資料,使用穩健統計方法估計相應的位置參數向量和離散參數矩陣,以緩輕和限制多元變量下離群值的不利影響。

緩解現有估計量的缺陷和改善傳統估計方法的目的在于,使統計量具有更強的抗御離群值干擾的能力。

通過采用模擬研究方法能夠達到改進估計量穩定性的目的。一個包含有4100個單位、涉及到四種社會類型的總體,被用來產生模擬的制造業月度調查的隨機樣本。被研究總體源于兩個不同的數據分布形式,第一個分布是含有兩個變量(產出量和原材料消耗量)的多無正態分布;第二個分布是一個被污染的分布產生這個分布中具有和第一個分布相同的算術平均數,但是變異指標方差是第一個分布的九倍(由Hulliget提出的一種污染分布的類型)。從這個含兩種不同分布組成的總體中模擬產生了10000個樣本容量為100的隨機樣本,并應用加權的方法和以前采用傳統方法識別離群值的結果進行全面比較。

作為實際應用的理論準備,在穩健統計方法形成的開發和研究中,除了切尾均值、中位數等較好的穩健統計估計量以外,還相繼提出了一類位置參數的穩健估計量方法(例如位置M估計量),在多參數回歸模型的估計方面也拓展了穩健性回歸方法,在離散特征的估計方法中提出了穩健的離散特征值估計量等等。除了穩健估計量之外,穩健平滑線、穩健擬合線的思想和統計方法也受到統計專家的重視。除了穩健統計量主要受極端離群大值和極端離群小值的影響之外,數據分布的中間段部分或其中的任意部分存在跳躍性較大的局部離群值,都會對平均平滑線和方程擬和線產生影響。例如當遇上離群值數據時,傳統的一般平滑技術實際上得到的是/非平滑0效果,因此也開發出一些穩健平滑和穩健擬合的技術。良好的統計穩健性應能允許模型的假設和實際情況有一定的偏差,對數據中的離群值有較高的抗干擾性,以及當總體是由多種類型分布組合成復合分布時,都有較好的性能。

三、穩健統計的幾點啟示

1.重視統計量的系統化公布和有效解釋。官方統計應該更加重視統計量的系統化分布,同時對相應數據分布特征的信息描述應予以有效的解釋。例如收入分布的位置特征值可以考慮給出算術平均收入、中位收入等多種信息,同時輔以勞倫茨曲線、基尼系數、分段均值等統計量,詳細闡述收入的分布特征。在可能的條件下,對收入全部觀察值中劃定一定的比例,作為離群值予以專門的處理和分析。人均收入指標的統計穩健性應將著眼點主要放在數據的主體部分。

2.加強對統計指標中各種統計量的比較研究。近年來國際統計學界提出了比較統計學的概念,它不僅是對各種統計思想和統計流派及統計制度進行比較,還著重對各種數據體系、統計分布、統計估計方法和統計量進行比較。其中較有實用價值和直觀效果的比較研究,當屬對傳統統計量和穩健性統計量異同的比較。在收入分布的研究中,可以先按全部觀察值給出統計量,然后刪除離群值后給出切尾統計量。據此我們可以分析統計量在多大的程度上分別反映了數據的主體部分和個別極端部分,以及兩部分數據的相互關系,同時可以觀察分析的偏態。對統計量比較分析的意義還在于能使統計指標的使用者和分析者都能更好地理解數據的分布特征,以及為什么要使用穩健的統計量。

3.對經濟指標的統計穩健性和統計敏感性的權衡。統計的穩健性實際上是要求統計量對離群值之類的數據具有不強的敏感性,因此它采取剔除離群值的方法,來達到統計穩健性的目的,或者是以離群值的位置,而不是以其具體數據來達到此目的。但是統計穩健的獲得較之傳統的經典統計量而言,要忍受觀察值的一定信息量的損失,這也使得穩健統計量帶來了一些缺憾。實際上這關系到對統計量穩健性和敏感性之間的權衡,因為統計量除了要謀求穩健之外,對一定程度敏感性的謀求也應是統計量優良性的標準之一。例如數據中的離群值出現,可以反映經濟指標中的一些動向和新的經濟亮點,可能昭示著某種趨勢的到來。若統計量對此全然不顧,不能敏感地反映這種變化,則會使統計量走向另一個極端。觀察值位置上分布的不均勻,使得中位數之類的穩健統計量也發生了波動,為了謀求進一步的改進,產生了復合統計量的方法。例如可由對第一、第二和第三分位數簡單平均后得出穩健統計量,其特征在于穩健統計量不是一步求出來的,而是在不斷改善和逼近的多次迭代過程中產生的。因此不僅增強了統計量的穩健性,也使統計量對觀察值的抽象性加強。

4.重視對離群值數據確認和處理技術的開發與應用。從某種意義上講,統計量的穩健性在很大程度上表現為離群值干擾性的嚴重存在,所以對經濟指標數據中離群值的分析應用就顯得十分必要。離群值是那些離主體數據部分的極端大(或小)的數值,從其產生的來源和過程來看,會有因測量條件(測量環境和計量單位)、登錄錯誤、定義概念不一等各種導致測量誤差的原因,也有其他總體的分布數據混入以及反映了真實情況的離群值異常情況。同時某個數據是否屬于離群值,一般是用殘差的大小來判斷的,若殘差值較大,則可以被視為離群值,并可以進一步分析其產生的原因和可能的解決方法。需要注意的是,殘差的衡量最好應以穩健的統計量作為標準,同時殘差的大小與計算單位有關,變換計算單位或改變殘差大小的標準,會使得分布的對稱性受到影響。因此,應重視計算單位和殘差標準理論的研究。如城市人口以萬計還是以百萬計,所表明的分布偏態程度具有較大的差異,因此在規模大小不同的城市間進行差異比較時,應考慮使用不同的人口計量單位進行反復的比較研究。當離群值數據較多時,可以視其為一種由異質總體合并而成的復雜總體。此時可能的解決方法是以多個統計量進行分段式的統計量化,或者用某些穩健統計量描述主要的總體部分,而忽略次要總體的存在。

5.利用計算機軟件來支持和分析。雖然當變量和數據的個數較少時,手工的計算可以滿足穩健統計量的計算要求,但是對于大量數據的統計穩健性分析,以及需要通過多次迭代過程才能產生的穩健統計量而言,計算機技術的應用是不可避免的。早在20世紀80年代初期,Minitab統計軟件包中就已經有用于考察殘差的穩健統計方法。時值今日,普及程度相當高的Excel問世以后,為穩健統計量的計算和分析開辟了全新的、更簡單快捷和更普遍使用的手段。使用Excel宏命令中的加載宏和復制宏功能可以很方便地打開各種穩健統計量的計算方法,并可以對其進行假設檢驗。

精品推薦
主站蜘蛛池模板: a免费在线 | 亚洲欧美日韩精品永久在线 | 国产精品久久久一区二区三区 | 五月天激情综合 | 五月婷婷丁香在线视频 | 狠狠久久综合伊人不卡 | 丁香偷拍| 亚洲综合久久久久久中文字幕 | 综合热久久 | 久久99国产精品 | 亚洲男人网 | 一级看片免费视频 | 中文字幕国产精品 | 五月天狠狠干 | 亚洲开心网 | 亚洲最新视频在线观看 | 俄罗斯精品三级在线观看 | 亚洲一区二区三区免费视频 | gav久久| 18pao国产成视频永久免费 | 国产精品视频视频久久 | 夜精品a一区二区三区 | 伊人婷婷色香五月综合缴激情 | 亚洲欧美综合 | 老子影院午夜精品欧美视频 | 亚洲一区日韩二区欧美三区 | 羞羞视频在线免费观看 | 欧美性精品hd在线观看 | 欧美日韩中文国产一区二区三区 | 91精品综合久久久久久五月天 | 亚洲精品tv久久久久久久久 | 五月亭亭六月丁香 | 国产一区二区三区乱码网站 | 亚洲美女高清一区二区三区 | 中文字幕永久免费视频 | 福利视频免费观看 | 亚洲五月综合网色九月色 | 亚洲伊人成综合成人网 | 小草影院在线观看播放 | 免费自拍偷拍视频 | porn精品国产|