本站小編為你精心準備了函數型數據異常值檢驗研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《統計與信息論壇雜志》2014年第六期
數據平滑方法是函數型數據圖形化描述的基本工具。對于一組面板數據,當使用數據平滑方法在同一個坐標系內繪出同一個指標不同時間點的擬合曲線,而且這些曲線依照時間順序以不同的顏色排列,就形成了類似雨后彩虹一樣的圖形,稱這個圖形為彩虹圖。Hyndman使用懲罰樣條插值法,對1899年到2005年間法國特定年齡段男性的死亡率曲線形成的彩虹圖數據進行了平滑處理,得到一個形似彩虹的圖形[7]。本文采用1991—2013年的中國上證指數統計數據,使用懲罰樣條插值法對每個交易日的收盤價和總的交易金額作彩虹圖,從1991年開始到2013年9月25日的數據依照不同顏色順序排列形成了一組彩虹圖。由于2007年和2010年中國股市的兩次暴漲暴跌,使圖形看起來沒有形成一個完整的彩虹形狀,但色譜同樣逐次排列的光滑曲線在時間不斷重復的條件下,仍形成了函數型數據的彩虹圖(見圖1)。同時,還可基于數據深度、數據密度或其他特性順序作彩虹圖。由于曲線在很多取值上重合,很難識別平均曲線的位置或者大多數曲線的下降位置,當異常值被曲線其他特性混淆時(例如某一段上的曲線形狀與其他部分很不相同)則很難識別。對于單變量數據,通常用箱線圖來解決上述問題,而本文的目的是以箱線圖的形式定義函數型數據的變動,這種箱線圖可以給出偏離曲線、一條中心線和一個包含曲線中間50%部分的區域。圖1是以上證指數收盤價和成交金額等自然指標進行的排序,這樣的排序在函數型數據的分析上缺乏新意,很難從中發現統計規律。在函數型數據研究的文獻中,很多研究者采用不同的思路進行數據排序的嘗試,如可利用穩健主成分方法計算出每個時間點的主成分得分,并以此排序形成彩虹圖。幾乎所有針對函數型數據的作圖方法都涉及到對函數型數據的排序。圖1中的數據是基于時間排序,然而對于很多數據集以數據本身潛在的價值來排序,似乎是更好的選擇。關于函數型數據的很多排序方法都使用了數據深度或者數據密度的概念,這些方法揭示了給定的函數型數據的觀測值及其潛在分布的“深度”或“密度”的情形[8-9]。一般情況下,一個深度函數或密度函數的輪廓圖可以用來展現多變量數據的可以看得見的形狀和結構特征。
(一)函數型數據深度的測度方法Febrero等人提出了一種基于函數型深度概念的異常值檢測方法,其基本定義為:其中對于給定的x值,D(yi(x))是對其深度的度量函數。在這個定義下,通過一個不斷增加的o{i}序列來定義曲線的順序,因此接近x軸的第1條曲線的函數型數據深度最小,而最后一條的最大。
(二)二元主成分得分深度的測度對多變量函數型數據進行主成分分析,設φk(x{})為主成分,zi{,k}是對函數型數據進行主成分分解后的主成分得分。原始數據yi(x{})中的大量信息可以由少數的前幾個主成分及其得分反映出來。大多數情形下,對于一些經濟或自然觀察數據而言,少數幾個主成分得分往往可以積累超過80%的方差貢獻率,這也正是主成分分析的優點之一。因此,將考慮前兩個得分向量(z1,1,z2,1,…,zn,1)和(z1,2,z2,1…,zn,2),并考慮將這兩個向量應用到深度函數的方法中,還可將二維平面上的點(zi,1,zi,2)看作zi。Tukey還提出了二元得分可以利用半空間位置深度排序的方法,即用d(θ,z)表示,θ∈R2對應于二元數據區域z={zi;i=1,2,…,n}[8]。Tukey深度函數被定義為:當θ存在于封閉半平面邊界上時,該半平面內全部數據點的最小值可以按照距離d(zi,Z)以升序排列,這種順序下的第一條曲線可認為是平均線,而最后一條曲線是在樣本曲線中離中心最遠的曲線。
(三)數據密度方法Scott提出的數據密度方法是通過每個觀測值上的二元核密度估計值排序[10]209-210。設oi=^f(zi),^f(zi)是由所有二元主成分得分計算得到的核密度估計值,這樣函數型數據就可以按照o{i}的值以升序排序。因此,有最高密度的曲線是第一個觀測值,而最后一條曲線是最低密度值;第一條曲線被認為是模板曲線(這里可以理解為基本的參照曲線),而最后一條曲線被認為是最不同尋常的曲線,實際上也最可能是異常值。應注意到,這種排序下的最后一條曲線取值與其他曲線差異可能不大,其二元得分也可能并不在散點圖(zi,1,zi,2)的邊緣,可能的情形是有一點在散點圖內,但該點附近再無其他點,這樣該曲線就表現為低密度值。
二、函數型數據圖形分析的主要方法
(一)彩虹圖對于一些不依時間而按其他統計指標排序的數據,基于特定的排序指標或輔助標志也可以用彩虹圖來表示,例如上面定義的數據深度或數據密度排序指標,繪圖時根據o{i}的排序即可選擇對應的線條顏色。為驗證上述方法,Hyndman根據國際氣象組織公布的厄爾尼諾現象的測量數據進行模擬計算,選擇了1951年1月至2007年12月南太平洋赤道附近的厄爾尼諾浮標點(南緯0~10度,西經90~80度)海平面的月平均溫度時間序列數據進行了分析[11]。本文更新了上述數據,采用1982年1月至2013年12月的數據進行了再次模擬,并繪制了一組彩虹圖,這些數據沒有顯著的時間趨勢,因此基于時序的彩虹圖意義不大。圖2顯示的是基于深度函數和密度函數指標順序所表示的彩虹圖,顏色按照彩虹顏色順序,最接近中心數據的曲線設為紅色,遠離中心的設為紫色。按照深度和密度描繪曲線,因此紅色曲線是最模糊的,而紫色最清楚,即使曲線部分大多數數據重合。圖2中橫坐標表示數據測量的月度順序,縱坐標表示海平面的溫度;圖2(a)中黑色實線表示中線,圖2(b)中黑色實線表示參照曲線。
(二)打包圖函數型數據的打包圖是建立在二元主成分打包圖基礎上,并應用前兩個主成分得分而得到。圖3使用了Tukey所定義的位置深度函數的概念,這個深度區域Dk是所有θ的集合,d(θ,k)≥k,因此深度區域形成一個凸面體,對于任意k2>k1有Dk1Dk2[8]。Tukey的二元深度中位線被定義為:給定一個獨立的θ,使d(θ,k)達到最小的θ值,并被定義為最深區域的重心。類似于二維箱線圖,二維打包圖有一個中心點(即Tukey中位數)、一個內部區域(包)和一個外部區域,除此之外異常值以個別點顯示。包被定義為至少包括總數50%的觀測值的最小深度區域,打包圖的外部區域(或稱“圍欄”),是包括由顯著性水平決定的概率度因子ρ得到的包(與Tukey中位數有關)所組成域內的點組成的凸面體,當ρ=2.58時,假設投影的二維得分服從標準正態分布,則該區域允許外部區域的圍欄部分包含99%的觀測值;同理,當ρ=1.96時,圍欄部分包含的數據觀測值可以達到95%;當ρ=1.64時,圍欄部分包含的數據觀測值可以達到90%。圖3顯示的是關于厄爾尼諾現象數據的描述圖形。在圖3(a)中,深灰色區域表示的是50%的包,淺灰色區域顯示的是99%的邊界,這些凸面體對應于圖3(b)中函數型打包圖的相同陰影部分。位于圍欄區域之外的點一般可視之為異常值,不同顏色的異常值表明右邊的個體函數曲線同左邊的二元主成分得分相匹配。圖3(a)中,紅色星號表明了二元主成分得分的Tukey中位數,圖3(b)每個平面的黑色實線表明的是中位數曲線,藍色點線是中位線上對應點的95%的置信區間,深灰和淺灰域標明了包和邊界。紅色星號是Tukey深度平均數,右面的黑色實線是平均線,上下虛線是對應點的95%置信區間,而外域之外的曲線用不同顏色標明的是異常值。在厄爾尼諾數據中檢測出的異常值出現在1982—1983年和1997—1998年。1982—1983年間厄爾尼諾指數在1982年6月升高較慢,在1982年9月至1983年6間海洋表面溫度有一個極不正常的升高;1997—1998年間厄爾尼諾指數也不正常,尤其是在3月和5月。國際氣象組織和有關國家公布的資料表明,1982年4月至1983年7月的ENSO現象是幾個世紀來最嚴重的一次,太平洋東部至中部水面溫度比正常高出約4~5℃,造成了全世界1300~1500人喪生,經濟損失近百億美元。2009年12月在丹麥舉行的哥本哈根聯合國氣候變化大會上,2009年便被定為厄爾尼諾年。當異常值遠離平均數時函數型打包圖可能是一種較好的異常值檢測方法,然而當異常值接近于平均數時,這種深度測量異常值的方法可能誤判異值,在這種情況下函數型HDR箱線圖則更適用。
(三)HDR箱線圖HDR箱線圖即高密度區域箱線圖,是Hyndman最先提出并進行實證分析的。函數型HDR箱線圖是建立在二維HDR箱線圖基礎上的,由前兩個主成分得分并進行分析后繪制。二維箱線圖HDR是由一個二維核密度估計^f(z)構造,定義如下:區域,在這個區域內所有點要比區域外任何點有更高的密度估計,因此可以把這個區域命名為“高密度區域”。對于二維密度估計,HDR可看作是一種類似地理學上的等高線,隨著α的減小,區域中包含的范圍在不斷擴大。二維HDR箱線圖表示的是眾數,被定義為sup^f(z),即核心部分包含50%和外層包含99%的點的最高密度區域,分布在99%區域之外的點即可視為異常值。函數型HDR箱線圖是一個由前兩個穩健主成分得分的二元HDR箱線圖到函數的映射,包括參照曲線(有最高密度的曲線)、內部和外部區域。內部區域是由50%二元HDR內的點所形成的曲線而組成的域,因此有50%的曲線在內部區域。類似地,外部區域被定義為外圍二元HDR圖上的點所形成的曲線而組成的區域(見圖4)。圖4顯示了用厄爾尼諾統計數據進行實證分析的例子。在圖4(a)中,深灰色和淺灰色區域分別表示50%的內部區域和99%的外部區域,直接對應于圖4(b)中函數型HDR箱線圖中的同色陰影區域,而外部區域之外的點被認為是異常值,不同顏色的異常值與圖4(b)中個體曲線顏色及圖4(a)中二維得分HDR相對應。圖4(a)中的紅色圓點表示二元主成分得分的眾數,對應于圖4(b)平面圖中的黑色實線。從圖4不難看出,1982-1983年和1997-1998年作為異常值被排除在外部區域之外,可以顯著地定義為異常值,這個結論和前文的討論是一致的,符合實際情況。包括打包圖和HDR箱線圖在內的任何一種異常值檢測方法,都需要提前確定外部區域的覆蓋率。在99%的概率保證程度下,厄爾尼諾數據集中檢測出的異常值出現在1997—1998年。如果假定厄爾尼諾數據中的覆蓋率分別為92%和93%,那么在每個例子中檢測出的異常值將同打包圖得到的結果相對應,這表明相對于其他數據,這些異常值有不同的數量大小和分布形狀。
三、借助圖形分析方法進行異常值檢測
在函數型數據分析中,一般利用函數型數據打包圖和函數型深度方法即可完成異常值的檢測。
(一)函數型深度方法Febrero提出了一個對每一條曲線yi(x{})計算其似然比檢驗統計量的異常值檢測方法[6]。如果檢驗統計量的最大值比給定的置信值C大很多,那么可以斷定該數據點為異常值。去掉該點,對余下的數據用該方法繼續檢測其他異常值,一直重復這個過程,直到不再有其他異常值出現。這種檢測方法是建立在式(1)給定的函數型數據的深度測量基礎上,故對形狀異常值并不敏感。
(二)誤差平方積分方法Hyndman等人提出了一種基于穩健型函數主成分分析的異常值檢測方法[4]。設對每一個隨機觀測樣本點i的誤差平方項積分如下:
(三)穩健的馬氏距離方法穩健的馬氏距離方法是公認的可以用在離散型曲線yi(xj);j=1,2,…,{p}上的一種多元異常值檢測方法。假定在相同的空間密度坐標x1,x2,…,x{p}上觀測到函數型數據,那么平方的穩健的馬氏距離可以定義如下:
四、異常值檢測方法的實證分析
根據上述討論,針對函數型數據的異常值數據,再次采用公開的厄爾尼諾現象在1982年1月到2014年1月的同步統計數據進行實證分析(圖5)。
(一)正態分布假定下的異常值檢測由圖5可以直觀地看出,在1982—2014年的33個年度數據中,除了4月份以外,其他月份的箱線圖都有異常值出現,而且這些異常值主要集中在1982—1983年和1997—1998年兩個厄爾尼諾現象嚴重的年份,這與前文所述的情形基本類似。為了進一步比較本文所述的異常值檢測方法,對于同一組數據,首先使用傳統的異常值檢測方法進行初步分析,即考慮大樣本情形下以均值為核心構建一個半徑為3s的置信區間,如果數據溢出這個區間,則判定為異常值,結果見表1。
(二)函數型數據異常值檢測對于厄爾尼諾數據,同樣利用前文涉及到的三種方法和HDR箱線圖與打包圖進行異常值檢測。R語言程序準確地記錄到了每種方法的計算時間,考慮到全部計算程序在同一臺計算機上完成,硬件的影響可以忽略不計。比較一種異常值檢測方法的優劣,主要考察該方法的精確度和計算速度。以傳統的箱線圖方法為基準計算出的異常值檢出率,即檢測出的異常點占全部異常點的比例,除了函數型深度方法以外其他方法的檢出率均為100%。檢測方法的響應速度則直接采用統計軟件顯示的有效計算時間,計量單位是秒。計算表明,圖形方法是異常值檢測的較好方法,不但保持了較高的檢出率,而且計算時間也較短,比較適合大數據場合下持續進行的計算和分析,其中打包圖比HDR箱線圖的計算效率更優。如果考慮到未來在線大數據的計算,動態的函數型HDR箱線圖和打包圖都是一種較好的選擇方法,甚至可考慮生成類似股價圖一類的動態圖示方法,從而及時地檢出異常值,排除異常原因,最終保證數據過程的正常運行(見表2)。
五、結論與進展
本文針對函數型數據的可視化分析,提出了三種描述工具和三種識別函數型數據異常值的方法。在所熟悉的二維空間中,對主成分得分按照數據深度和數據密度排列后,異常值和正常點自然就分開了。本文所提及的方法,其優點是可以對復雜的函數型數據進行快速分析,并通過圖形直觀地表示出來,有利于批量地處理大數據,也有利于在更廣義的領域推廣使用,有較高的應用價值。根據筆者對更新的厄爾尼諾統計數據的實證研究,所介紹的三種異常值檢驗方法,無論是檢測速度、效率和直觀性還是檢測的精度,都比以往的傳統方法更優。國外近期文獻顯示,在復雜數據背景下無論是自然科學還是社會科學,都對函數型數據的方法開展了研究,其研究主要包括三方面的進展:一是對傳統主成分分析方法的擴展和進一步探索,主要目的是針對函數型數據的降維分析,在盡可能保持數據信息的前提下,降低數據的復雜性,以保留最多的因子貢獻及方差貢獻;二是探索更多的檢測異常值的方法,以Tukey的深度函數和密度函數為基礎,逐步發展了一些快速捕捉數據特性和檢測函數型數據中異常點的方法,能輔助計算方法的改進,以替代傳統的異常點檢測方法;三是發展以穩健方法為主要趨勢的基本統計方法,以函數型數據的眾數和中位數為參照,對各類數據集進行排序和分割,以得到更直觀有效的結果。
作者:米子川單位:山西財經大學統計學院