本站小編為你精心準備了傳統媒體在互聯網中的運用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
本文作者:惠恭健李明單位:江南大學人文學院講師華東師范大學傳播學院博士生南京大學新聞傳播學院講師南京大學社會學系博士生
1引言
內容分析法是應用最為廣泛的社會科學研究方法之一,大量的實證研究都是通過這種方法進行數據搜集與處理。貝雷爾森認為,內容分析法是一種對顯在的傳播內容進行客觀、系統和定量描述的研究方法[1]。隨著互聯網的出現,許多適用于傳統媒體研究的方法和工具已不再能完全沿用,內容分析法在媒體研究中的應用也必須根據媒介形態的改變而作出及時的調整與改變。對傳統媒體進行內容分析時,由于媒體內容是已被刊播過的,內容分析法的應用是針對確定的研究對象;而互聯網內容綜合了文字、聲音、圖像等多種傳播方式,并以超文本的方式進行內容呈現,內容分析法在應用時其研究對象是無時無刻不處于變化之中的。因此,內容分析法作為一種研究工具,面對傳統媒體和互聯網這兩種不同特性的媒體,需要作出應用方式和方法上的改進與完善。回顧已有的涉及互聯網內容分析的論文,描述性研究占了絕大多數,以假設檢驗或理論建構為研究目的的論文還比較少。從純粹描述性的研究向假設檢驗或理論建構式研究的過渡,應該是互聯網內容分析努力和發展的方向。因此,筆者在本文的闡述中將更注重內容分析在互聯網和傳統媒體研究中應用過程的差異,具體集中在抽樣、確定分析單位、收集資料和信度檢驗等具體環節上的不同處理,以期通過這樣的對比來完善和促進內容分析法在互聯網媒研究中的應用與拓展。
2互聯網內容分析中的抽樣實施與傳統媒體的內容分析相比,互聯網內容的海量化使抽樣框和抽樣方法的選擇更需靈活性。
2.1抽樣單位的選擇
抽樣單位的選擇一般要根據研究問題的需要。傳統媒體的內容分析中,抽樣單位一般為文本、詞語、標題、圖像、符號等;而對于互聯網內容分析來說,常見的抽樣單位是網站或網頁,因為網站和網頁是互聯網的基本結構單位,而且在具體操作時,抽取網站或網頁比較便利.
2.2抽樣框的建立
在具體抽取一個樣本之前,往往要預先建立一個抽樣框。抽樣框簡而言之就是研究總體中各個元素的列表或準列表。對傳統媒體進行內容分析時,抽樣框的確立一般根據研究問題的需要,以媒體發行或播出的全部或部分內容作為抽樣框。如有學者研究改革開放以來《人民日報》的三農報道,一般會選擇1978年以來的所有期次的《人民日報》作為抽樣框。雖然有些傳統媒體歷史悠久,積累的內容較多,但與互聯網的海量信息相比,傳統媒體的內容規模可謂望塵莫及。因此,互聯網內容分析抽樣框的選擇與傳統媒體相比,更需要靈活性。互聯網內容分析中抽樣框的建立,可以分為離線和在線兩種方式。離線型抽樣框主要根據已有的網站域名名錄、公司域名名錄等建立,比如以中國上市公司網站作為抽樣單位,可以根據中國上市公司名錄或中國上市公司網站域名目錄建立抽樣框。但是,離線型抽樣框有一個主要問題,即用于建立抽樣框的已有名錄往往已經過時了。克勒研究了網站存在的時間問題,他隨機抽取了一個網站樣本,一年之后發現其中25.3%的網站已經不存在了,而保留下來的網站的信息容量比原來增加了兩倍多[2]。可見,離線型抽樣框的應用非常有限。于是,另一種在線型抽樣框成為大多數研究者的首選。搜索引擎是獲得在線型抽樣框的最常見途徑,通常用于沒有可用的名錄或已有名錄已經過時等情形。一般由研究者根據研究問題確定適合的搜索關鍵詞,關鍵詞的確立關系到搜索結果的代表性。通過搜索引擎獲得在線型抽樣框的方法存在兩方面的問題。一是搜索引擎往往不能窮盡所有網頁。勞倫斯和賈爾斯分別對11個主要搜索引擎研究發現,它們只搜索了互聯網全部網頁的42%,也就是說,有一半以上的網頁搜索引擎根本就沒有搜索到,而且隨著互聯網內容的急劇膨脹,這個比例還在不斷縮小[3]。二是網頁被搜中的概率并不相同。搜索引擎一般優先搜索被鏈接次數較多的網站或網頁,因而此類網站或網頁被搜中的概率往往要高于其他網站或網頁。總結、比較以上兩種抽樣框,離線型抽樣框建立和使用比較方便,但往往不可靠;在線型抽樣框相對比較準確,但要求研究者熟悉搜索引擎,并且工作量較大。
2.3樣本的抽取
抽樣框確立后,下一步就是抽取樣本。根據概率抽樣原則,正確的抽樣應該保證“總體中每個個體都有同等的、獨立于其他事件的被抽中的機會。”[4]在對傳統媒體的定量內容分析中,雖然概率抽樣的方法在近年來應用越來越多,但便利抽樣、立意抽樣等非概率抽樣法仍是主流。有學者對《新聞學季刊》25年間采用內容分析法的論文統計發現,大部分論文采用便利抽樣或立意抽樣的方法,只有22.2%論文采用概率抽樣法[5]。在以往的互聯網研究中,也有大量論文采用非概率抽樣法,最常用的是隨機數表法,即根據抽樣框采用隨機數表進行抽樣。這種方法在抽樣框規模較小的情況下使用比較便利,若抽樣框是根據關鍵詞搜索結果制定的,搜索結果會因為沒有編號而耗費大量的人力和時間。如果研究某問題時很難得到一個有效的抽樣框,就無法運用隨機數表進行準確的概率抽樣。遇到這種情況,可以利用互聯網內容層級化結構的特點,采用分層抽樣的方式,在網站或搜索引擎的每個層級上進行隨機抽樣,注意控制各層的樣本數量,以保證樣本結構的代表性。在互聯網內容分層比較合理的情況下,分層抽樣可以取得更有代表性的樣本。
3互聯網內容分析中的分析單位確定
與傳統媒體的內容分析相比,互聯網內容的超文本特性導致分析單位的復雜化。內容分析法的分析單位包括編碼單位(codingunit)和語境單位(contextunit)。所謂編碼單位,即研究者根據預先設定的類目,從需要分析的資料中找出符合類目要求的信息的基本單位。如對于報紙內容,編碼單位可以是單個字詞、標題、句子、段落,也可以是整篇文章。編碼單位的選擇要根據研究問題的需要,盡可能選擇較小的單位,因為用較小單位編碼的信息可以以較大編碼單位重新聚合,而用較大單位編碼的信息無法以較小編碼單位進一步分解。語境單位是相對于編碼單位而言的,是研究者為了考察編碼單位存在的上下文語境和范圍而選擇的分析單位。如果對某報紙的新聞內容進行分析,確定編碼單位是某些字詞,那么語境單位可以是這些字詞所在的句子、段落或者是整篇新聞。研究者也應該根據研究問題的需要,選擇合適的語境單位。傳統媒體的內容形式比較單一,編碼單位和語境單位的確立相對比較簡單。對報紙、雜志、傳單等平面媒體而言,編碼單位大多為文本、標題、關鍵字詞、圖片等;對廣播、電視等電子媒體而言,編碼單位大多為時長、鏡頭、角色、形象、色彩、對白等。傳統媒體內容分析的語境單位選擇也比較簡單,一般為意群、整個文本、整段音頻或整段視頻圖像。互聯網內容的超文本特性會給分析單位的確定帶來一定的困擾。研究者在選擇編碼單位時問題尚不突出,只是可能會根據研究問題的需要,同時選擇多種媒體種類的編碼單位,增加了編碼工作的難度。對于語境單位的選擇標準則存在爭議,由于互聯網內容分析的編碼單位往往不是單一的,可能是包括文字、聲音、圖像等多種媒體類別,因此有學者認為,應該把整個網站作為語境單位;也有學者認為以整個網站作為語境單位過大了,可以以網站的首頁或前三層信息作為語境單位。綜合多方觀點,網站的首頁應該是互聯網內容分析理想的語境分析單位。有些網站可能擁有近萬個網頁,對之進行全面的內容分析不但要耗費大量時間,還會因為網站的巨大信息容量而使研究問題發生偏離。
4互聯網內容分析中的資料收集和信度檢驗與傳統媒體的內容分析相比,互聯網內容的變動性增加了資料收集和信度檢驗的難度。
4.1資料搜集
相對于互聯網內容,傳統媒體內容分析的資料搜集工作比較簡單,只要找到被抽中的那些期號的報刊、特定時段的廣播錄音或電視節目錄像等即可。由于這些報刊已經發行、廣播電視節目已經播出,其內容已經確定而無法更改,資料收集到后,研究者可以從容進行編碼分析。互聯網內容實時變動的特點,給內容分析的資料收集帶來一定的難度。為了避免在收集資料過程中樣本內容變動所帶來的誤差,有學者提出盡量縮短收集資料的時間,組織人力在盡可能短的時間內完成資料收集工作。克勒甚至建議研究者使用特定的下載工具,將所要分析的網站整個下載下來,再根據抽樣方案選擇編碼內容[6]。這個方法雖然能夠有效避免因互聯網內容變動帶來的資料收集誤差,但許多國家的版權法明令禁止下載整個網站內容,因為涉嫌侵犯網站的知識產權。因此這個方法雖然有效,但從現有的研究報告看,并沒有得到廣泛的使用。
4.2交互信度檢驗
對所收集的互聯網內容進行編碼后,編碼結果需進行信度檢驗,以測量編碼的可靠程度。交互信度的測量是常用的信度檢驗方法,其基本思想是至少有兩個人分別獨立對相同的內容進行編碼,然后測量編碼結果的一致性程度。傳統媒體的內容分析對象一經選定,就固定下來了,研究者可以從容地將需要交互編碼的內容分配給不同的編碼員,最后根據交互編碼結果計算得出交互信度。互聯網內容的實時變動性會干擾交互信度的測量。交互信度的測量要求兩個或兩個以上的編碼員對同一內容進行編碼,如果編碼員在不同時間上網編碼,不同編碼員所面對的是同一個網站或網頁,但他們所編碼的網站或網頁內容可能各不相同,這樣就違反了交互信度檢驗的基本假定,其結果也就沒有解釋意義了。米索等人在三周內對290個網站內容前后進行兩次編碼,當他們第二次編碼時發現,其中的23個網站已經不存在了[7]。因此有學者提出,編碼員們應在同一時間對同一互聯網內容進行編碼,以克服上述問題,但在具體操作中,編碼員很難完全同步地對互聯網內容進行編碼。有人提出先下載所有待編碼的內容,然后分發給編碼員進行編碼,這種方法雖然能解決上述問題,但會因侵犯網站知識產權而帶來諸多法律問題。如果編碼工作由一個編碼員完成,則可用“二次編碼法”檢驗編碼信度。具體操作方法是研究者先在待編碼內容中選擇一小部分,編碼員在編碼初期和即將完成時分別對之進行編碼,然后比較編碼結果的一致性程度。用“二次編碼法”對互聯網內容編碼進行信度檢驗時,也要注意互聯網內容的變動性問題。
5思考與展望
內容分析法是勞動密集型的工作,往往要耗費大量的人力、物力,而且研究周期比較長。從上世紀60年代開始,就有許多專家學者致力于內容分析的自動化或者計算機化。他們設計了很多內容分析的軟件,取得了一定成績,但由于這些軟件一般對被分析的文本要求較高,而且需要較多的人工干預,因此應用并不廣泛。如果將這些軟件用于分析面廣量大、多種媒體雜陳并包含大量不規范信息的互聯網內容,必定會錯誤百出。況且,這些軟件一般沒有中文版,無法分析中文信息。祝建華和李曉明發起的“中文易社科”(Chinesee-SocialScience)計劃的第一項研究———“網頁內容分析工具”(e-ContentAnalysisTool,簡稱“易貓”),使中文互聯網內容分析的自動化邁出了第一步。祝建華和李曉明假定中文社會科學研究者通過內容分析所需的70%~80%的數據是諸如時間、地點、人物、事件和原因等簡單事實,將“易貓”定位為易用廉價的傻瓜化的分析工具,以提高其適用性。“易貓”是基于搜索引擎的內容分析工具,其主要操作步驟如下。(1)將用戶輸入的查詢提交到各中文搜索引擎;(2)對返回的結果網頁進行過濾和消重;(3)對凈化后的網頁進行切詞,并將提取的實詞按照人名、機構、地名、時間詞和普通名詞等歸類;(4)展示各類詞的頻率排序,或任意兩類詞的交叉排序;(5)將提取的所有詞頻存入一個數據矩陣,以便供有需要的用戶做深入的統計分析[8]。課題組用“易貓”成功預測了2006年“超女”比賽的前四名,除了在排名順序上二三名倒置外,其余都與比賽結果一致,預測準確率達到93.8%。“易貓”的研究尚處初級階段,在辨認事實及其因果描述方面準確度還有待提高,然而這種自動化的內容分析工具為中文互聯網研究開辟了新天地。