本站小編為你精心準備了自選式網絡調查的統計推斷參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《暨南學報》2015年第八期
一、引言
隨著網絡的普及及其及時性、客觀性、可靠性、低成本性和高效性等特點,越來越多的機構和組織開始采用網絡調查。根據調查抽樣的方式可將網絡調查分為概率抽樣的網絡調查和非概率抽樣的網絡調查,非概率抽樣的網絡調查又可分為娛樂性網絡調查、自選式網絡調查和志愿固定樣本的網絡調查①,本研究主要討論自選式網絡調查。自選式網絡調查就是在各大門戶網站上、網上討論區或專門的調查網站公開發出邀請函,看到此函的上網者可自由選擇是否參加調查②,調查問卷只是簡單地放在網上,回答者正好是上了網、訪問了這個網址并決定去參與這個調查的人群;調查研究者并不控制選擇的過程,選擇概率是未知的,這樣的調查稱為自選式網絡調查(SelfselectedWebSurvey)③。自選式網絡調查可能是當今網絡調查中最為流行的形式,由于得到權威科研機構的支持而變得合法化④。傳統的抽樣推斷理論是基于概率抽樣的基本原則從總體中隨機抽取樣本,總體中每一個單元都有一個非零的入樣概率,而且所有的入樣概率都是已知的,樣本單元入樣概率的倒數是其權數,將觀測結果與樣本單元的權數結合實現對總體目標量的估計。但是,自選式網絡調查并沒有樣本的選擇,整個總體可能就是一個樣本,其樣本從傳統意義上講是非概率的樣本,入樣概率未知,此時概率抽樣的原則無法使用,那么如何實現自選式網絡調查的統計推斷就成為一個需要解決的問題。
縱觀國內外關于網絡調查的研究,已有一些研究者從不同的方面進行了探討。國外的Grandcolas等⑤采用了相同的問卷同時進行了網絡和紙質的調查,并比較了回答者的均值、方差、偏度和峰度,發現許多顯著的不同,同時采用卡方和回歸模型去分析不同調查模式的效果,得出這些不同是由抽樣偏差而非模式的不同所引起的。Bethlehem①提出了自選式網絡調查中總體均值估計的理論框架。Keusch②建立了用于解釋調查參與行為的理論框架與在線數據收集方法實證研究之間的系統聯結,有助于研究者與實踐者采用相應的技術提高網絡調查的參與率。國內的劉昊③探討了網絡調查中非抽樣誤差的來源,提出了預防非抽樣誤差的對策。馬慧敏④闡述了城鎮住戶網絡調查中常見的幾類非抽樣誤差,并對非抽樣誤差的控制提出了建議。樊茗癑與宗明剛⑤在分析網絡調查無回答問題的基礎上,運用熱卡插補法對網絡調查無回答數據進行仿真控制,發現熱卡插補法對網絡調查無回答問題具有較好的事后補救效果??傊?,國內外關于網絡調查的研究主要集中在網絡與紙質調查的比較、網絡調查的參與與回答、非抽樣誤差等方面,而涉及自選式網絡調查的研究非常少,關于自選式網絡調查推斷問題的研究就更為少見,且僅有的一些研究系統性不足。
本研究針對自選式網絡調查進行系統性的探究,給出自選式網絡調查總體均值、總量的估計及其性質,并對相應的性質進行推導證明,在此基礎上進一步提出可采用傾向得分方法對估計進行加權調整,以提高估計的精度。
二、自選樣本的估計
為了便于討論,現假定總體中的每個個體都能上網(U=U1),即目標總體就是網絡總體。如果一個自選樣本從網絡中產生,參與一個自選式網絡調查要求回答者能意識到調查的存在(他們必須是正好訪問了這個網址或者看到了電子郵件信息,然后參與這項調查),并決定填網上的問卷,這就意味著在網絡總體中的每一個單元i都有參與調查(回答)的未知概率pi,i=1,2,…,N。傾向得分方法是一種用于兩個人群(總體)之間進行比較的統計方法,本質上,這種方法試圖通過同時控制那些被認為比較有影響的全部變量的方式,來對兩個人群之間的特征進行比較①。在網絡調查中,也可視為有兩個總體:參與網絡調查(回答)的總體和沒參與網絡調查(無回答)的總體。傾向得分可通過對表示某人是否回答的變量進行建模而得到。常常將指示變量(是否回答即Ri)作為因變量,單元的輔助變量作為解釋變量建立Logistic回歸模型,這些輔助變量常常用于測量單元的態度、行為或生活形態,且參與者和未參與者的輔助變量值都是已知的。為了實現這一點,可通過在自選式網絡調查中采取一定的措施找到看到網上問卷(通過訪問網址、電子郵件等)但未回答單元的聯系方式,如IP地址、電子信箱、QQ、微信、電話等,對無回答的總體以聯系方式為抽樣框實施隨機抽樣調查,調查內容以態度、行為或生活形態等輔助變量為主,同時對自選式網絡調查中的回答單元必須提出同樣的問題(可將輔助變量相關問題一并放入網上問卷中),從而擬合Logistic回歸模型就可估計回答概率,即傾向得分。傾向得分p(X)是一個具有觀察到的特征向量X(輔助變量)的人參與網絡調查(回答)的條件概率,即p(X)=P(R=1|X)。
三、結束語
由于自選式網絡調查得到的樣本為傳統意義上的非概率樣本,無法采用概率抽樣的統計推斷理論對自選樣本進行統計推斷。本文針對自選樣本,考慮網絡總體,給出自選樣本的總體均值、總量的估計,推導證明了估計的性質,并進一步采用傾向得分方法對估計進行加權調整,為網絡調查的統計推斷提供一定的參考。此外,若目標總體并非網絡總體,即還有一些人沒有上網但也是調查的對象,此時就會導致覆蓋不全的問題,在此種情況下如何進行統計推斷,也是值得進一步研究的問題。
作者:劉展 單位:中國人民大學統計學院