前言:我們精心挑選了數篇優質統計學變量類型文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
[關鍵詞]社會科學 統計方法 應用問題
社會科學的實證研究在應用統計學時,統計分析是其關鍵環節,資料性質分析、資料類型的判斷、統計方法的選擇等各個環節都應把握好,否則,其分析結果將是沒有意義的。本文擬通過對社會科學實證研究論文中應用統計分析方法出現的問題,從描述性分析、定量資料的統計分析、定性資料的統計分析、相關與回歸分析等方面進行解析。
一、描述性分析問題
在社會科學實證研究中,一般首先要對社會調查數據進行描述性統計分析,以發現其內在的規律性,再選擇進一步的分析方法。描述性統計分析要對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布形態以及一些基本的統計圖形。
描述性統計分析雖然較為簡單,但如果對某個事件或某種現象的描述不清楚或存在偏差,那么其后的所有分析都將值得懷疑,而描述的偏差可能會引起公眾或學術界對某些社會現象的誤解,甚至誤導政府決策。
1.均值的誤用
均值是用于描述樣本集中趨勢的最常用指標,但應注意,對于正態或近似正態的對稱分布樣本,它是較好的指標,一般與離散趨勢指標中的標準差一起描述數據資料(即形式);而對于偏態分布的樣本,則常用中位數來描述集中趨勢,一般與離散趨勢指標中的四分位數間距一起描述數據資料(即形式),究其原因是均值容易受到極端值的影響。
對于兩個分布完全不同的樣本,可能會得到相同的均值,因此均值在某種程度上抹殺了樣本內部的差異,而往往這種內部差異正是需要進行深入研究或應當引起人們注意的。為了彌補均值的這種缺陷,一般在報告均值的同時,也應該報告標準差,或用直方圖或散點圖的形式描述分布,以展示群體內部的差異。
2.絕對數的誤用
因為社會調查研究比較容易得到大容量的樣本,所以對任何小概率事件,用絕對數報告都會出現較大的數字,單純對絕對數的強調往往會產生誤解。比較合理的方式一般是在報告某事件絕對數的同時,給出該事件的發生率或占研究樣本的比例。
3.相對數的誤用
相對數常用于描述定性資料的內部構成情況或相對比值或某現象的發生強度,一般有比與率兩種形式。雖然比與率的計算形式是相同的,即兩個絕對數之商乘以100%,但它們的含義是不同的。率用于反映某種事物或現象發生的強度,而比則用于反映部分與整體或某一部分與另一部分之間的關系。當數據的比較基礎相差懸殊,用絕對數表述沒有可比性時,就要借助于相對數。
應用相對數也容易出現一些問題,如:百分比與百分率的混用;當分母很小時,只計算百分比或百分率,而沒有報告樣本量;當比較兩個或多個總體率時,沒有考慮到各總體對應的內部構成情況是否一致,而直接比較等。
例如在報告流動人口犯罪問題時,給人的印象往往是流動人口犯罪率高于常住人口,其實是忽視了流動人口的年齡和性別構成與常住人口完全不同,且青年男性是犯罪率較高的人群,這樣對兩個不同群體的比較往往會導致錯誤的結論。
二、定量資料的統計分析問題
定量資料的統計分析是指所觀測的結果變量是定量的,而且希望考察定性的影響因素取不同水平時,定量觀測結果的均值之間的差別是否有統計學意義。定量資料的統計分析在統計學應用中占有很大的比重,出現的誤用也比較多。
正確選擇定量資料統計分析方法的關鍵有兩點:一是正確判斷統計研究設計的類型;再是檢驗定量資料是否滿足“獨立性、正態性及方差齊性”的前提條件[1]。前者要求使用者對統計研究設計的類型較為熟悉,后者則需要進行預分析,可適當借助于統計分析軟件。根據前提條件是否滿足來決定用參數假設檢驗或方差分析,還是用非參數檢驗方法,進而根據對統計研究設計類型的判斷,確定采用具體的統計分析方法。
對定量資料作統計分析時,常犯的錯誤有:
1.不管統計研究設計類型,盲目套用t檢驗或單因素方差分析;
2.不驗證“獨立性、正態性及方差齊性”前提條件,而直接應用參數檢驗法;
3.將多因素設計定量資料人為拆成多個成組設計定量資料,采用t檢驗法;
4.將多因素設計定量資料用單因素多水平方差分析解決,或用一元分析替代多元分析等。
三、定性資料的統計分析問題
定性資料的統計分析是指觀測結果為定性變量的統計處理問題。定性資料的統計分析在社會科學研究中的應用也是很廣泛的,通常根據影響觀測結果的原因變量性質分為三種情況:
1.原因變量都為定性變量,此類資料就是通常理解的定性資料。常用的統計分析方法有:檢驗、秩和檢驗或Ridit分析、Spearman秩相關分析、線性趨勢檢驗、一致性檢驗(也稱Kappa檢驗)、加權檢驗、對數線性模型等。
2.原因變量中既有定性變量,又有定量變量。這類資料的統計分析通常有兩種處理方法:一是結合專業知識先將定量的原因變量離散化,使其轉化為定性變量,然后采用上面3.1的統計方法處理;二是先對定性的原因變量,采用啞變量技術進行處理,轉化為多個二值變量,賦予0或1值,然后采用Logistic回歸分析方法或多值有序變量Logistic回歸分析處理。
3.原因變量全部為定量變量。這類資料的分析可以直接采用Logistic回歸分析方法或多值有序變量Logistic回歸分析處理。
定性資料的最常用表達形式是列聯表,列聯表有多種類型,如橫斷面設計的四格(或稱2x2)列聯表、隊列研究設計的四格列聯表、配對研究設計的四格列聯表、雙向無序的R×C列聯表、單向有序的R×C列聯表、高維列聯表等,不同類型所用統計方法也不同,所以處理這類資料的關鍵是分辨出列聯表的類型,從而選擇相應統計分析方法。
在社會科學研究中,定性資料的統計分析常犯的錯誤主要就是列聯表的誤判,從而錯誤的選用統計方法。
四、相關與回歸分析問題
相關分析是研究變量之間的相互關系,常局限于統計描述,較難從數量角度對變量之間的聯系進行深入研究;回歸分析則是研究變量之間的依賴關系,可實現對自變量進行控制,對因變量進行預測,及對隨機變化趨勢進行適當修勻。
相關分析可用于對定類、定序、定距及定比等尺度的各類資料進行定量描述,但各類資料的計算公式是不同的,所以應用時,需要判明資料的類型;而回歸分析則要根據因變量性質的不同,選用不同的回歸分析方法,一般可分為兩類:一是因變量為連續型變量,具體的,當為非時間性的連續型變量時,可用線性回歸分析、多項式回歸分析、非線性回歸分析等;當為時間變量時,可用COX半參數回歸分析、指數分布回歸分析及威布爾回歸分析等;當為隨時間變化的連續型變量時,則需要利用時間序列分析。二是因變量為離散型變量,需要利用Logistic回歸分析、對數線性模型分析及多項Logit模型分析等。
在社會科學研究中,相關與回歸分析的應用非常廣泛。但應用時也經常出現一些錯誤:
1.沒有結合問題的專業背景和實際意義,就進行相關與回歸分析。其結果有時可能是莫名奇妙的,可能出現所謂的虛假相關。
2.對于較簡單的線性相關與回歸分析,不注意應用條件,盲目套用。一般地,Pearson相關分析要求兩變量都是隨機變量,且都服從或近似服從正態分布,若不滿足條件,應采用其它相關分析法,如Spearman相關分析等。而線性回歸分析則要求因變量必須是隨機變量,且服從或近似服從正態分布,在回歸分析前,先要進行統計檢驗,證實兩變量的顯著相關性,再進一步進行回歸分析才有意義。
3.只求得相關系數或回歸方程,而不進行參數假設檢驗就下統計分析結論。因為相關系數或回歸方程都是由樣本數據求得的,是否具有統計學意義,必須通過其相關參數的假設檢驗來判定。
4.多元回歸分析策略的錯誤。在社會科學實證研究中,對多元回歸分析的應用,不少人采取的策略是先用單變量分析,得到有統計學意義的多個變量,再將它們引入回歸方程進行多變量分析,用逐步回歸法進行篩選,從中選出有統計學意義的變量,這種分析策略是不正確的。因為自變量之間可能存在不同程度的交互作用,在單變量分析中無統計學意義的變量并非在多元回歸分析中也沒有意義。正確的處理方法應該是先綜合分析各種變量之間的作用、實際意義及關系,有些可作為控制變量(如性別、年齡等),將經過初步篩選的所有變量代入回歸方程進行分析,再采用逐步回歸方法,必要時可多用幾種篩選變量的方法,同時要注意自變量間的交互作用,進行綜合分析,這樣才能得到較為可靠的結果。
參考文獻:
[1]王在翔:社會統計理論與實踐[M].青島:中國海洋大學出版社,2008
[2]胡良平等.醫學統計學基礎與典型錯誤辨析[M].北京:軍事醫學科學出版社,2003.148-239
[3]柯文泉:統計方法應用中應注意的幾個問題[J].時代經貿,2008,6(96):83-86
目前,很多研究人員對影像資料分析方法的學習和理解存在一定困難,尤其初學者對繁雜的概念、復雜的計算公式、數據資料性質判斷以及如何選擇合適統計學方法等問題難以深刻理解。針對這些問題,王良等[1]建議采用以下模式:判斷資料類型、根據研究目的選擇分析方法、其他適宜方法。
1.1根據資料類型初步確定方法
臨床研究中產生的各種不同原始資料,而不同數據資料類型采用的統計分析方法也不同。定量資料常用的方法有t檢驗、方差分析、非參數檢驗、線性相關與回歸分析等。定性資料可用的方法有χ2檢驗、對數線性模型、logistic回歸等,影像醫師可根據不同需要選用不同統計方法。值得一提的是有些資料類型確定后,統計方法的選用對其有序性有相應要求;而多種方法聯合應用或者使用部分少見的分析方法時還需要在選定統計方法后,利用統計軟件(如SAS、SPSS)對應的不同命令進行初步分析試驗。
1.2根據研究目的選擇方法
1.2.1差異性研究
差異性分析是指評價比較組間均數、頻數、比率等的差異。根據研究需要可選用的方法有χ2檢驗、t檢驗、方差分析、非參數檢驗等。臨床上研究兩組、多組樣本比率或構成比之間的差別關系時最常用χ2檢驗,也是針對計數資料進行假設檢驗的一種常用的統計學方法,而對兩組定量資料分析常用t檢驗和秩和檢驗,多組資料分析則常用方差分析;Fisher精確概率法主要適用于總體樣本頻數小于40或四格表中最小格子T值<1。雖然Fisher精確檢驗不屬于χ2檢驗,但仍可以作為有效的補充,而也有人認為在統計軟件普遍易得的當下,Fisher精確概率法也同樣適用于大樣本四格表的資料。如彭澤華等[6]在探討冠狀竇-左心房肌連接的雙源CT冠狀動脈成像(DSCTCA)形態特征時針對冠狀竇-左心房肌連接的類型在兩組類別變量采用聯表的χ2檢驗,結果差異無統計學意義(χ2=0.115,P=0.944)。Teefey等[7]在研究超聲表現及白細胞計數預測急性膽囊炎壞疽變化關系時使用Fisher精確分析。t檢驗適用于兩組定量資料分析且資料滿足方差齊性和正態性兩個基本條件;同樣t檢驗適用于完全隨機設計的單因素兩水平的資料,在選用t檢驗時應注意對資料進行相應的變量變換,若資料不能滿足基本條件則選用適合分析偏態分布的非參數檢驗(如:秩和檢驗)進行分析。如Wang等[8]在研究不同侵襲性的前列腺癌組織和正常前列腺組織以及外周帶前列腺癌Gleason評分與腫瘤信號對比時采用t檢驗。Kung等[9]在研究化膿性髖關節炎的臨床和放射學預測指標時也使用t檢驗分析。秩和檢驗包括基本秩和檢驗(Wilcoxon等級檢驗、Mann-WhitneyU-檢驗)和高級秩和檢驗(Kruskal-Wallis、Friedmantests、Kolmogorov-Smirnov擬合檢驗)。當研究資料為兩方差齊且呈正態分布的總體,而總體分布類型未知或者不滿足參數檢驗的條件時,采用t檢驗對樣本進行比較;但若無需比較總體參數只比較總置的分布是否相同且總體資料分布類型未知時需要采用非參數的Wilcoxon秩和檢驗進行比較。針對兩組或多組樣本的定性資料使用秩和檢驗比較時,需要混合兩樣本數據、編秩(從小到大)、計量T值、查表或計算求得P值。如Saindane等[10]在對“空蝶鞍”的臨床意義判定因素研究中針對顱內壓增高和偶然發現空蝶鞍患者兩組資料對比時采用Wilcoxon秩和檢驗。Filippi等[11]在研究DTI測量兒童Ι型神經纖維瘤病胼胝體派生指標時運用Wilcoxon秩和檢驗。事實上在影像資料分析中經常見到多重組間比較的情況,方差分析(analysisofvariance,ANOVA)就是用來推斷兩個或者多個總體之間是否有差別的檢驗,又稱F檢驗。多重組間比較不能單純選用兩樣本均數比較的t檢驗,但是可以根據資料類型選用ANOVA檢驗。若來自兩個隨機樣本資料呈正態分布且方差齊性同的定量資料,應采用兩因素(處理、配伍)方差分析(two-wayANOVA)或配對t檢驗。通過F檢驗可以比較可能由某因素所至的變異或隨機誤差,同時可了解該因素對測定結果有無影響。當不滿足方差分析和t檢驗條件時,可對數據進行變換或采用隨機區組設計資料的FriedmanM檢驗。Obdeijn等[12]在研究乳腺術前MRI能減少術中切緣和乳腺保守術后再次手術,使用ANOVA分析兩組資料,結果對照組(29.3%)相比術前MRI病例組(15.8%)有效減少切緣和再次手術(P<0.01)。
1.2.2相關性分析
相關性分析不等同因果性,也不是簡單的個性化相比,其涵蓋的范圍和領域較為廣泛。統計學意義中的相關性分析包含相關性系數的計算,其過程為:每個變量轉化為標準單位后,乘積的平均數即為相關系數。相關性分析可以用直觀地用散點圖表示兩個或者多個變量的離散,當其緊密地靠近于一條直線時,即變量間存在很強的相關性。相關分析常用的方法有Pearson相關性分析、Spearman等級相關分析和卡方檢驗。臨床中對兩個或者多個均為定量變量的資料,且變量均呈正態分布時可選用Pearson相關分析,但多數情況下Pearson相關分析適用于兩組資料的相關性分析。判斷兩變量之間線性關系的密切程度主要用Pearson積差相關系數,其范圍為-1~+1。若相關系數的絕對值越接近1,即兩變量間相關性越密切;反之,相關系數的絕對值越接近0,其相關性越差。實際上在高質量期刊論文中使用Spearman等級相關分析的研究也很常見,其通過相關系數進行變量間線性關系分析來判定兩個變量間相關性的密切程度。而密切程度的量化指標則通過計算樣本相關系數r,根據實際計算r絕對值所屬范圍來推斷兩個來自總體變量的線性相關程度,從而推斷總體的相關性。根據實際分析需要,將相關關系密切程度分為6等:當IrI=0時,說明兩變量完全不相關:當0<IrI<0.3時,說明兩變量不相關;當0.3<IrI<0.5時,說明兩變量低度相關;當0.5<IrI<0.8時,說明兩變量顯著相關;當0.8<IrI<1說明兩變量高度相關:當IrI=l時,說明兩個變量完全相關。王效春等[13]在研究磁敏感加權成像與動態磁敏感加權對比增強MR灌注加權成像聯合應用在腦星形細胞瘤分級中的價值一文應用Spearman等級相關分析,結果顯示腫瘤內磁敏感信號與相對血容量最大值和病理分級呈正相關(IrI分別為0.72、0.89,P值均<0.01),相對血容量與病理分級呈顯著正相關(r=0.78,P<0.01)。又如Lederlin等[14]在比較幾何參數、相關功能與組織學特性在哮喘患者的支氣管壁CT衰減性關系中同時使用Pearson相關分析和Spearman等級相關分析,其r=0.39~0.43,表明與對照組相比常規CT衰減參數在哮喘患者平常支氣管的CT參數、氣道壁衰減方面更好的區分哮喘患者,同時也更好地區分氣道梗阻。值得提及的是對資料有序或無序無法作出初步判定,且明確資料類型為定性資料時還可以選擇使用卡方檢驗和Spearman等級相關分析。
1.2.3影響性分析
由于事物之間的聯系是多種多樣的,而某一結局可能受到來自其他多個方面的影響,此時為分析某一結局發生的影響因素可采用的資料分析方法有線性回歸(一元或多元)、logistic回歸、Cox比例風險回歸模型(生存分析)等。在影像資料分析中一元線性回歸是將影像資料中一個最主要影響因素作為自變量來解釋因變量的變化。多元回歸定義為某一因變量的變化受多個重要因素的影響,而此時需要用兩個或多個影響因素作為自變量來解釋因變量的變化,且多個自變量與因變量之間是線性關系(多個因變量之間相互獨立)。實際研究中多元線性回歸模型在影像資料分析應用較為廣泛。Langkammer等[15]在磁敏感系數繪圖在多發性硬化中應用研究中使用多元線性分析,結果顯示各種影響因素中年齡是預測磁化率影響最強的因素。Logistic回歸是研究二分類和多分類觀察結果與某些影響因素自己建關系的一種多變化分析方法,其經常需要分析疾病與各影像指標之間的定量關系,同時又需要排除一些混雜因素影響。Logistic回歸在統計學上屬于概率型非線性回歸,其分析思路與線性回歸大致相同,能有效解決過高或過低水平因素以及分析因素少而樣本量大等問題。相比多元線性回歸,Logistic回歸在處理分類反應數據方面更為常用,且適用于結局為定性影像資料。如Lee等[16]研究高分辨率CT在發現小蜂窩樣特發性間質肺炎纖維化的連續變化和預后應用中使用logistic回歸分析,結果表明高分辨率CT在網狀和磨玻璃狀范圍內評價普通肺炎與非特異性纖維化肺炎之間差別明顯(P<0.01)。在臨床實際工作中常常需要分析生存時間與影像資料之間的關系,Kaplan-Meier法就是常用的一種分析方法,其又稱乘積極限法,對大小樣本資料分析均適用。實踐中習慣上以時間為橫軸、生存率為縱軸回執的階梯狀圖稱為Kaplan-Meier生存曲線(survivalcurve),也稱K-M曲線。Cox比例風險回歸模型是另一種生存分析方法,包括參數與半參數模型兩類,其主要是進行多因素生存分析的一種方法,同時可分析眾多變量對生存時間和生存結局的影響。Saad等[17]在經頸靜脈肝內門體靜脈分流術在肝移植受者的技術分析和臨床評估研究中比較成功施行肝移植與非移植病人開展門體分流術(transjugularintrahepaticportosystemicshunt,TIPS)后的臨床療效評估,使用了Kaplan-Meier法,結果顯示6~12個月、12~24個月、24個月以上,移植成活率分別為43%、32%和22%。生存期大于1年的晚期肝臟疾病模型存活評分低于17分、等于17分或大于17分的存活率分別為54%和8%(P<0.05)。
2其他適用方法
2.1ROC曲線
ROC(receiveroperatingcharacteristic)曲線是歐美影像學期刊中應用較為常見的統計學方法,國內期刊應用相對較少。ROC曲線根據一系列不同的分界值以真陽性率(靈敏性)為縱坐標,假陽性率(特異性)為橫坐標繪制的曲線。ROC曲線分析結合靈敏度(sensitivity)和特異度(specificity)廣泛應用于醫學診斷,也應用于影像診斷及人群篩查。ROC曲線根據曲線下面積(areaundertheROCcurve,AUC)的大小對診斷試驗作定量分析。理論上,AUC值在0~1間。根據實際情況將診斷分為不符合診斷(AUC<0.5)、無診斷價值(AUC=0.5)、低準確性(0.5<AUC<0.7)、一定準確性(0.7<AUC<0.9)、較高準確性(0.9<AUC<1),AUC越接近于1,表明診斷準確性越高。Hyodo等[18]在研究乏血管少結節的慢性肝臟疾病患者發展成富血管性肝細胞癌風險因素一文中使用ROC曲線分析,結果顯示后續發展成血管性結節平均增長率明顯高于非血管過渡性結節。
2.2Kappa檢驗
Kappa檢驗主要用于評價不同資料間一致性程度,常用Kappa值評價一致程度。Kappa系數適用于兩項和多項無序分類變量資料。在影像學試驗中常需要判斷多名醫師測量同一研究對象或者同一醫師多次測量同一對象的一致性,Kappa一致性檢驗便是最佳選擇。Kappa檢驗還可通過計算Kappa值對兩種非金標準的診斷方法進行診斷結果一致性分析。一般而言,評價Kappa一致性需要計算Kappa系數,但在研究考察新的診斷試驗方法是否優于金標準,或者檢驗是否與金標準一致時,還需要計算特異度、靈敏度、陽性預測值和陰性預測值等指標。目前公認的Kappa系數分為六個區段即一致性極差(Kappa值<0),一致性微弱(Kappa值0~0.2),一致性弱(Kappa值0.21~0.40),中度一致Kappa值(0.41~0.60),高度一致(Kappa值0.61~0.80),一致性極強(Kappa值0.81~1.00)。
2.3Levene檢驗
相關熱搜:統計學 統計學原理
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性。科學方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
四、多元統計分析方法