本站小編為你精心準備了統計資料參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
【關鍵詞】統計學;醫學;數據分析,統計
HuCY,HuLP.JChinIntegrMed.2009;7(1):7478.
ReceivedOctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.
Indexed/abstractedinandfulltextlinkoutatPubMed.JournaltitleinPubMed:ZhongXiYiJieHeXueBao.
Freefulltext(HTMLandPDF).
ForwardlinkingandreferencelinkingviaCrossRef.
DOI:10.3736/jcim20090112OpenAccess
Howtoidentifystatisticaldata
ChunyanHU,LiangpingHU
ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China
Keywords:statistics;medicine;dataanalysis,statistical
統計資料是統計分析的對象,正確識別統計資料是合理運用統計分析方法處理統計資料的首要前提;而科學完善的實驗設計又是獲得準確而又可靠統計資料的基本保證。
1何為統計資料
1.1數據不等于統計資料某研究者提交了如下內容。請問:它們是否叫統計資料?
6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5
它們不叫統計資料,因為這些數據代表什么含義并不清楚,數據的單位是什么不清楚,能派什么用場也不清楚,它們只能叫68個數據而已。
1.2僅有度量衡單位的數據仍不能稱為統計資料假定前面給出的68個數據的單位是ng/ml,是否可稱其為統計資料呢?仍然不可以!因為還缺少數據的名稱,即數據的專業含義是什么,必須交代清楚,對其進行分析和討論才能有的放矢,否則,只能是玩弄數字游戲。
1.3僅有變量名及其取值的數據仍不能稱為統計資料表1中有很多數據,其中的每一列都能被稱為統計資料嗎?
有些似乎可以,有些則不可以。因為有些列僅有變量名,其專業含義并不清楚,如“G”代表什么,其下方的“1”與“2”又分別代表什么,“X1”的含義可通過其下方的“男”、“女”得知其代表“性別”,但“X3~X13”的含義都不清楚,“X14”代表聯合用藥情況。
1.4有指標名稱又有度量衡單位的數據是否一定就可稱為統計資料假定前面給出的68個數據所代表的指標為神經元特異性烯醇化酶(neuronspecificenolase,NSE)的含量,其單位是ng/ml,此時,它們是否就能叫統計資料?若要求不高,基本上可以稱其為統計資料;若要求嚴格,還不能這樣稱呼。因為它們測自什么樣的受試者并不清楚!比如有的測自正常人,有的測自不同疾病患者,甚至有的測自動物。表1冠心病人與正常人多項指標的觀測結果
1.5統計資料應具備4個基本要素應當說,指標(或變量)名稱、度量衡單位和具體取值是統計資料的3個基本要素。僅有這些基本要素可能還達不到特定的研究目的,也就是說,統計資料還應包括實現特定研究目的所對應的特定條件。比如說,前面給出的68個數據是某年從某地區18~60歲全部正常成年人中隨機抽取的68人血液NSE酶的具體數值,而且,在獲得這些數據時,測定的時間、地點、方法、儀器設備和測定者等都相同。這樣條件下測得的NSE酶含量(ng/ml)所得的統計資料,運用適當的統計分析方法,才可以推測該年該地區18~60歲全部正常成年人血中NSE酶含量的(1-α)100%容許區間(醫學上習慣稱為正常值范圍)和NSE酶含量總體平均值的(1-α)100%置信區間(也有人稱為可信區間)。概括起來說,統計資料應具備4個要素:影響因素(測定條件)、有明確專業含義的指標名稱、度量衡單位和具體取值。由此可見,統計資料通常是復合型,一般至少含有2個變量,一個稱為影響因素,另一個稱為觀測指標及其取值。前面舉的例子中,影響因素是受試者類型,僅測定了正常人,隱含的另一個水平是除這里定義的正常人以外的其他人,要使兩組人具有較好的可比性,與其可形成對照的是某年從某地區18~60歲全部非正常成年人中隨機抽取的68人。下面的表2中,若給X5~X11加上相應的度量衡單位,就是一個比較正規且可達到一定研究目的的復合型統計資料。表2103例冠心病人與100例正常人多項指標的觀測結果
2統計資料的分類
2.1定性與定量資料任何一個有一定實用價值的統計資料通常都是復合型統計資料,即至少有兩類性質的資料,一類叫定性資料,另一類叫定量資料。通常影響因素是定性資料,而觀測結果是定量資料,但有時影響因素和觀測結果都可包含定性與定量兩類資料。
2.2資料類型的兩種劃分方法資料類型的劃分方法有傳統與現代兩種。現將這兩種劃分方法作一扼要介紹,并對其加以比較。
2.2.1資料類型的傳統劃分方法資料類型的傳統劃分方法是將資料分為計量資料、計數資料和等級資料3類。其定義如下。
計量資料:測定每個觀察單位某項指標量的大小,所得的資料稱為計量資料。例如測得正常成年男子身高(cm)、體質量(kg)、血紅蛋白(g/L)和總鐵結合力(μmol/L)等所得的資料。
計數資料:將觀測單位按某種屬性或類別分組計數,得到各組觀察單位數稱為計數資料。例如某單位全體員工按ABO血型系統劃分所得A型、B型、AB型、O型血的人數分別為1598、2032、641、1823人;又例如某小學1年級至6年級的學生人數分別為90、100、86、95、112、96人。
等級資料:將觀測單位按某種屬性的不同程度分組計數,得到各組觀察單位數稱為等級資料或半定量資料或有序資料。例如用某種治療方法醫治100名某病患者,最后清點治愈、顯效、好轉、無效和死亡的人數分別為10、30、40、15和5人;又例如某醫院檢測1029例患者,其中眼晶狀體混濁程度為+、++、+++的分別有494、296、239人。
2.2.2資料類型的現代劃分方法資料類型的現代劃分方法是將資料先粗分為定量資料和定性資料兩大類,然后,再將定量資料劃分為計量資料和計數資料兩小類;將定性資料劃分為名義資料和有序資料兩小類。其定義如下。
定量資料:測定每個觀察單位某項指標量的大小,所得的資料稱為定量資料。
計量資料:指標的取值可以帶度量衡單位,甚至可以帶小數(標志測量的精度)的定量資料,就叫計量資料。例如測得正常成年男子身高(cm)、體質量(kg)、血紅蛋白(g/L)和總鐵結合力(μmol/L)等所得的資料,它們首先是定量資料,進一步細分,它們還是計量資料。
計數資料:在定量資料中,若指標的取值可以帶度量衡單位,但不可以帶小數(只能取整數,通常為正整數)的定量資料,就叫計數資料。例如測得正常成年男子脈搏數(次/min)和引體向上的次數(次/min)。
定性資料:觀測每個觀察單位某項指標質的狀況,所得的資料稱為定性資料。
名義資料:在定性資料中,若指標質的不同狀況之間在本質上無數量大小或質量好壞之分或先后順序之分的定性資料,就叫名義資料。例如某單位全體員工按ABO血型系統(A型、B型、AB型、O型)來記錄每個人的情況所得的資料;又例如某市全體員工按職業(工人、農民、知識分子、軍人……)來記錄每個人的情況所得的資料。
有序資料:指標質的不同狀況(狀態個數≥3)之間在本質上有數量大小或質量好壞或有先后順序之分的定性資料,就叫有序資料。例如某病患者按治療后的療效(治愈、顯效、好轉、無效、死亡)來劃分所得的資料;又例如矽肺病患者按肺門密度級別(+、++、++
+)來劃分所得的資料。
若用一張表將資料類型的現代劃分方法表示出來,則一目了然。見表3。表3統計資料類型的現代劃分方法
2.2.3資料類型兩種劃分方法的比較資料類型的傳統劃分方法是從資料的收集方式角度來定義,也可以說是就“形式”而言;而資料類型的現代劃分方法是從資料的性質角度來定義,也可以說是就“本質”而言。
事實上,當人們看到一個記號“1”時,人們無法知道這個“1”究竟代表的是什么含義。因為它可以代表1個人的年齡為1天或1個月或1歲,可以代表某定量指標的一個具體取值,也可以代表某組個體中具有某種陽性反應的人數是1人(頻數為1),還可以代表受試者的一個特定性別(如用“1”代表男性,用“0”代表女性)。這說明僅從事物的表面看問題,很難準確地獲知事物的本質特征。要想準確地揭示統計資料的性質,只需給出資料所對應的指標名稱(變量名,通常隱含專業意義,若含義不明,應明確給出)和具體取值,而不必將調查對象分組后數出各組的調查單位數。例如在表3的前4行中,任何一行的任何一個數據或符號都應叫做其表頭上相應指標的具體取值,“25”是“年齡X1”的一個具體取值,“農民”是“職業X4”的一個具體取值,同理,“+”是“尿糖X7”的一個具體取值。對于資料類型的現代劃分方法而言,可以說出表3中任何一列的資料類型;而對于資料類型的傳統劃分方法而言,就不便說出表3中后4列的資料類型,它需要先分組,然后,用每個指標的所有不同標志及其對應組內的個體數兩部分結合在一起,才叫計數資料或等級資料。而在多變量回歸分析中,需要直接利用后4列資料,此時,資料類型的傳統劃分方法就顯得“心有余而力不足”了。
3誤判資料類型的案例
例1原文題目:美泰寧對睡眠作用的影響。原作者研究美泰寧對戊巴比妥鈉誘導的小鼠睡眠的影響,選用40只體質量相近的雄性小鼠,隨機分為溶劑對照組和3個劑量組,根據0、12.5、25.0和75.0mg/kg體質量,用蒸餾水配成所需濃度,每天灌胃。第7天灌胃15min后,各組動物按28mg/kg體質量腹腔注射戊巴比妥鈉,以小鼠翻正反射消失達1min以上作為入睡判斷標準,觀察腹腔注射戊巴比妥鈉25min內各組動物發生睡眠的動物數。經統計學處理,中、高劑量組與溶劑對照組比較,差異有統計學意義(P<0.01)。見表4。表4美泰寧對閾下劑量戊巴比妥鈉誘導雄性小鼠睡眠發生率的影響
對差錯的辨析與釋疑統計資料常常分為定量資料和定性資料兩大類,所謂定量資料是指每個觀察單位用計量方法測量某項指標數值大小;而定性資料是指記錄每個觀察單位的某一方面的特征和性質。本資料觀察的是動物的入睡情況,原作者把每組入睡的每只動物記為1,不睡的動物記為0,這樣第一組有2個1,8個0,第2組有5個1,5個0,第1組和第2組各10個數據進行t檢驗,得t=1.406,P<0.05(經驗算,就計算本身而言,原作者的計算結果是正確的)。但實際上這里的1并不代表真正的數值,它只是代表一種狀態,即入睡,而0則代表沒有入睡,因而本資料從性質上說應屬于定性資料。但原作者卻錯誤地將其判斷為定量資料,表的標題后括號內寫了x±s的形式,但實際上表中并沒有表示平均數和標準差的數據,反而誤導讀者該資料為定量資料。一般來說,t檢驗僅適于分析定量資料,用分析定量資料的方法去分析定性資料顯然是錯誤的。
正確判定統計資料屬于定量資料還是定性資料是選用統計分析方法的首要前提。本資料屬于定性資料,應根據分析目的,合理選用適合此類資料的分析方法如Fisher精確檢驗進行統計分析。
例2原文題目:小兒皮膚血管瘤雌、孕激素受體的研究。原作者意在探討雌激素受體(estrogenreceptor,ER)和孕激素受體(progesteronereceptor,PR)在血管瘤發生、發展中的意義。采用免疫組化方法對毛細血管瘤、混合型血管瘤、海綿狀血管瘤、淋巴管瘤及正常皮膚組織的ER和PR進行檢測。全部標本經10%福爾馬林固定,常規石蠟包埋。每例選一典型蠟塊,4~6μm切片,進行免疫組化染色,高倍鏡下每例腫瘤區內計數500個細胞,計數ER和PR陽性細胞百分率,統計方法用χ2檢驗。結果見表5。表5血管瘤和淋巴管瘤中ER和PR檢測結果
對差錯的辨析與釋疑正確判別統計資料的設計類型是合理選擇統計分析方法的重要前提。根據統計指標的性質,統計資料一般分為定量資料和定性資料兩大類。所謂定量資料,是指每個觀察單位(針對此資料,其觀察單位是病例標本)測得的指標是用具體的數值表示,其又細分為計量資料和計數資料;所謂定性資料,是指每個觀察單位測得的指標僅反映某一方面的性質,并不能用具體的數值表示,其又細分為名義資料和有序資料。對于本資料來說,測量細胞的結果是“陽性”或“陰性”,且一般認為帶有“率”的資料就是定性資料,似應判為定性資料。然而問題的關鍵在于,原作者的觀察單位并不是細胞本身,而是每一個病例標本。原作者關心的是4種疾病病例標本和一組正常人標本的ER和PR陽性細胞率之均值是否相同,從每一個病例標本中得到的是ER和PR陽性細胞率,是一具體的數值,因而應屬于定量資料。如果僅從資料的表面現象(有“率”)進行判斷,而不考慮每一個數值的實際含義,沒有從資料的本質上進行判斷,很容易判斷錯誤。
本資料的受試對象為病例標本,測量指標為“陽性細胞百分率”,因而應為定量資料,其涉及一個實驗因素,即樣品類別,有5個水平,即毛細血管瘤、混合型血管瘤、海綿狀血管瘤、淋巴管瘤和正常皮膚。對于百分率的定量指標,一般根據經驗,宜做平方根反正弦變換,使資料檢驗滿足正態性和方差齊性的前提條件后,按單因素五水平設計資料進行方差分析,如變量變換后仍不滿足前提條件,則用非參數檢驗。
例3有人對103例冠心病患者(G=1)和100例正常對照者(G=2)進行了多項指標的觀測,資料見表2。若以X5~X11為定量的結果變量,分別以“組別、性別、年齡、高血壓史、吸煙史、基因型”為影響因素,有人說此表中的資料類型為定性資料,也有人認為是定量資料。請問:此表中的統計資料究竟是什么資料[1]。
對差錯的辨析與釋疑將此表中的資料說成是定性資料或定量資料都不對,因為此表中有很多列,各列資料的性質不盡相同。若籠統地說,此表中的資料為混合型統計資料;具體地說,應根據各列變量、取值及其專業含義,區別對待。
第1列“編號”不屬于統計資料,僅起一個標識作用,若一定要問該變量的性質是什么,可叫它為“多值有序變量”。
第2列“組別(區分正常人和冠心病病人)”、第3列“性別”、第5列“是否有高血壓史”和第6列“是否抽煙”都是定性資料,其變量性質應叫做“二值名義變量”。
第7列~第13列都是“血脂指標”,它們都是定量資料,具體應叫做計量資料。
第14列和第15列分別是兩種“基因型”(通常有3種表現:-/-、-/+、+/+),它們都是定性資料,其變量性質應叫做“三值名義變量”。
第16列是“服藥情況”,其變量性質應叫做“多值名義變量”。
4小結
本文從正反兩個方面介紹了什么是統計資料、統計資料的分類以及統計資料識別中常犯的錯誤。按現代劃分方法來命名統計資料,有利于抓住問題的實質。科研設計的質量好壞和實施過程中的質量控制水平
的高低決定了所收集的統計資料是否準確、可靠;而正確識別各種研究問題中的統計資料類型,則是合理選用統計分析方法處理統計資料的關鍵環節。這是所有希望靠數據來說話的科研工作者不可小視的一個大問題!
【參考文獻】
1HuLP.Applicationoftripletypetheoryofstatisticsinstatisticalexpressionanddescription.Beijing:People''''sMilitaryMedicalPress.2008:4046.Chinese.