本站小編為你精心準備了多元統計在醫學統計中應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
多元統計分析是數理統計學中近20多年來迅速發展的一個分支,它探討高維數據的內在規律,如研究多元變量間的相互關系、數據結構和數據簡化等。在現在醫院統計分析中運用多元統計分析方法來分析醫院的運營情況,藥品利用情況等有著廣泛和實際的意義。為了更好地運用多元統計分析方法進行論證,現將在醫院統計分析中運用最多的幾種多元統計分析方法進行描述與對比,便于更好的應用,為醫院管理服務。
1.幾種多元統計分析方法的概念
主要成分分析就是將多項指標轉化為少數幾項綜合指標,用綜合指標來解釋多變量的方差-協方差結構。綜合指標即為主成分。所得出的少數幾個主成分,要盡可能多地保留原始變量的信息,且彼此不相關。
因子分析是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種多元統計分析方法。
聚類分析是依據實驗數據本身所具有的定性或定量的特征來對大量的數據進行分組歸類以了解數據集的內在結構,并且對每一個數據集進行描述的過程。其主要依據是聚到同一個數據集中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不相似。
三種分析方法既有區別也有聯系,本文力圖將三者的異同進行比較,并舉例說明三者在實際應用中的聯系,以期為更好地利用這些高級統計方法為研究所用有所裨益。
2.聚類分析、主成分分析和主因子分析基本思想的異同
2.1共同點
主成分分析法和因子分析法都是用少數的幾個變量(因子)來綜合反映原始變量(因子)的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85%以上,所以即使用少數的幾個新變量,可信度也很高,也可以有效地解釋問題。并且新的變量彼此間互不相關,消除了多重共線性。這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為x1,x2,...,x3,經過坐標變換,將原有的p個相關變量xi作線性變換,每個主成分都是由原有p個變量線性組合得到。在諸多主成分Zi中,Z1在方差中占的比重最大,說明它綜合原有變量的能力最強,越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數幾個公共因子去解釋較多個要觀測變量中存在的復雜關系,它不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因子與特殊因子兩部分。公共因子是由所有變量共同具有的少數幾個因子;特殊因子是每個原始變量獨自具有的因子。對新產生的主成分變量及因子變量計算其得分,就可以將主成分得分或因子得分代替原始變量進行進一步的分析,因為主成分變量及因子變量比原始變量少了許多,所以起到了降維的作用,為我們處理數據降低了難度。
2.2聚類分析、主成分分析和主因子分析的不同之處
主成分分析是研究如何通過少數幾個主成分來解釋多變量的方差一協方差結構的分析方法,也就是求出少數幾個主成分(變量),使它們盡可能多地保留原始變量的信息,且彼此不相關。它是一種數學變換方法,即把給定的一組變量通過線性變換,轉換為一組不相關的變量(兩兩相關系數為0,或樣本向量彼此相互垂直的隨機變量),在這種變換中,保持變量的總方差(方差之和)不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。
因子分析是尋找潛在的起支配作用的因子模型的方法。因子分析是根據相關性大小把變量分組,使得同組內的變量之間相關性較高,但不同的組的變量相關性較低,每組變量代表一個基本結構,這個基本結構稱為公共因子。對于所研究的問題就可試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。通過因子分析得來的新變量是對每個原始變量進行內部剖析。因子分析不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因子和特殊因子兩部分。具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數幾個在專業中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來間接確定各因子的狀態。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
3.聚類分析、主成分分析和主因子分析數據標準化的比較
主成分分析中為了消除量綱和數量級,通常需要將原始數據進行標準化,將其轉化為均值為0方差為1的無量綱數據。而因子分析在這方面要求不是太高,因為在因子分析中可以通過主因子法、加權最小二乘法、不加權最小二乘法、重心法等很多解法來求因子變量,并且因子變量是每一個變量的內部影響變量,它的求解與原始變量是否同量綱關系并不太大,當然在采用主成分法求因子變量時,仍需標準化。不過在實際應用的過程中,為了盡量避免量綱或數量級的影響,建議在使用因子分析前還是要進行數據標準化。在構造因子變量時采用的是主成分分析方法,主要將指標值先進行標準化處理得到協方差矩陣,即相關矩陣和對應的特征值與特征向量,然后構造綜合評價函數進行評價。
聚類分析中如果參與聚類的變量的量綱不同會導致錯誤的聚類結果。因此在聚類過程進行之前必須對變量值進行標準化,即消除量綱的影響。不同方法進行標準化,會導致不同的聚類結果要注意變量的分布。如果是正態分布應該采用z分數法。
4.應用中的優缺點比較
4.1主成分分析
4.1.1優點
首先它利用降維技術用少數幾個綜合變量來代替原始多個變量,這些綜合變量集中了原始變量的大部分信息。其次它通過計算綜合主成分函數得分,對客觀經濟現象進行科學評價。再次它在應用上側重于信息貢獻影響力綜合評價。
4.1.2缺點
當主成分的因子負荷的符號有正有負時,綜合評價函數意義就不明確。命名清晰性低。
4.2因子分析
4.2.1優點
第一它不是對原有變量的取舍,而是根據原始變量的信息進行重新組合,找出影響變量的共同因子,化簡數據;第二,它通過旋轉使得因子變量更具有可解釋性,命名清晰性高。
4.2.2缺點
在計算因子得分時,采用的是最小二乘法,此法有時可能會失效。
4.3聚類分析
4.3.1優點
聚類分析模型的優點就是直觀,結論形式簡明。
4.3.2缺點
在樣本量較大時,要獲得聚類結論有一定困難。由于相似系數是根據被試的反映來建立反映被試間內在聯系的指標,而實踐中有時盡管從被試反映所得出的數據中發現他們之間有緊密的關系,但事物之間卻無任何內在聯系,此時,如果根據距離或相似系數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。
結論
聚類分析、主成分分析和主因子分析三種分析方法既有區別也有聯系,在醫院統計分析中廣泛應用,但無論用哪中多元統計分析方法都要確著的數據和可行性。所以在應用多元分析時應注意:
(1)必須思路清晰,知道自己要干什么。
(2)在作多元分析前,必須先作描述性分析。只有在充分了解資料性質的基礎上,才有可能正確選擇方法,得出有價值的結論。
(3)當所得結果不符邏輯,或有悖于專業知識時,既不要輕易接受,亦不要輕易放棄,必須弄清楚為什么。