本站小編為你精心準備了優化傳統作者共引分析的研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《圖書情報知識雜志》2015年第六期
作者共引分析(authorcocitationanalysis,ACA)方法由WhiteHD和GriffithBC于1981年提出[1],其主要目的是通過作者之間的共引關系探究某學科(領域)的知識圖譜,進而指導科學研究[1,2]。ACA的基本假設可以總結為以下六方面:①著者的被引用意味著被引用者所利用;②著者被引用反映了該著者研究的質量、重要性和影響;③被引用的著者往往是經過源文獻作者篩選的、相關資料中最適于作者所用的文獻[1];④兩位作者具有共引關系,意味著他們的研究具有相關性;⑤所有的被引文獻在共引分析中都具有同等的地位[2];⑥兩位作者的共引次數越多,其相關性越強。1990年,McCainKW對ACA的流程和細節給予了更詳細的探討和規范[3];次年趙丹群也在我國首次介紹了共引和共引分析方法[4]。此后,ACA被廣泛地應用在許多領域,例如圖書情報學、醫學、計算機科學和管理科學等[5-12]。2010年后,ACA研究更多地轉向了全文本分析的領域(citationanalysisinfull-text或citationcontentanalysis)[13]。不過由于語料獲取的困難性,目前已有的全文本分析大多樣本量不大,或者只選用了窗口較小的引文語境。密歇根大學和新加坡國立大學的學者利用光學字符識別(opticalchar-acterrecognition,OCR)技術和人工處理構建了一個大型引文語料庫[14],但語料噪聲較多,還有待改善。然而,參考文獻中除引文題名、引文作者姓名之外的其他信息卻甚少受到關注,通過對JASIS期刊內1917篇文章的觀察發現:兩篇引文發表時間的差距越小,其作者在這兩篇引文的發文期間更有可能研究相似的熱點或解決相似的問題,且兩作者在該領域的知識圖譜應有較近的關系。也就是說,引文發表時間亦可顯示出被引作者間的研究相關性。因此,本文梳理傳統ACA方法的步驟,通過對典型算法的探討與問題的理解,綜合引文發表的時間信息與傳統作者共引信息,并通過實證研究將它與傳統ACA結果進行比較分析。
1傳統作者共引分析方法概述
傳統ACA主要通過計算引文作者兩兩間的共引數量得到原始作者共引矩陣,并通過一系列轉化和分析,繪制出某領域的知識圖譜。通過ACA可以發現某研究領域中處于研究前沿且備受關注、多次被引的作者,找尋作者的研究路徑和研究偏好,進而促進學術合作和學術交流。ACA的方法也常被廣泛地應用在許多領域,作為評估該領域發展現況和科學結構分析的參考。通過對傳統ACA方法進行梳理,筆者將其劃分成六大步驟(如圖1所示):①搜集領域關鍵數據;②確認分析對象;③建構原始共引矩陣;④生成相關矩陣;⑤數據分析和可視化;⑥結果解釋與效度分析。圖1傳統ACA方法的典型步驟
1.1搜集領域關鍵數據ACA通過作者間的共引關系來挖掘某研究領域中的中心作者。它或是在宏觀層次揭示整體的學科結構,或是在微觀層次描述單個子學科或研究團體及其相互依賴關系,因此確定擬研究的學科領域極為關鍵[15]。選擇的學科范圍既可以是完整的學科,也可以是學科中的研究專題。然后,研究者通過咨詢領域專家、依據期刊的內容和影響力[16]、滾雪球[17]或者直接通過個人儲備知識和學者的著作情況[3]確認該領域關鍵的出版書籍、研究團體、學術期刊或會議,并從中搜集和篩選有效和重要的研究著作。
1.2確認分析對象數據集確定并進行了規范的作者姓名消歧處理后,對于如何提取參考文獻中的作者數據,研究人員亦有不同的爭論。由于傳統ACA往往使用只含有第一作者信息的ISI題錄數據[18],并利用SQL語句進行作者遴選[3],因而傳統ACA只使用第一作者而非所有作者進行計量。由于這種計數方式的精確度飽受質疑,Persson[18]首先開始進行全作者共引分析。此外趙黨志[19]、Schneider[20]、Rousseau[21]和Eom[22]等研究人員還比較了第一作者共引分析、狹義全作者共引分析和廣義全作者共引分析,展示了更為廣泛的作者共引分析計數手段。與第一作者共引分析相比,全作者共引分析能夠全面地遴選出領域內的相關作者,且知識圖譜的描繪更為詳細[22]。1.3構建原始共引矩陣傳統ACA中,即使兩位作者被同一篇論文引用多次,兩位作者的共引次數也僅僅加一。數據集中同時引用兩位作者的論文篇數即為兩作者最終的共引值,并將其填入原始共引矩陣中。顯然,原始共引矩陣是對稱的,由于矩陣主對角線元素的行列標識均為同一作者,所以“共引”這個概念在主對角線元素上很難處理。這也引發了學界的爭論。Eom在其著作中詳盡敘述了傳統ACA主要使用的處理主對角線的方式及其比較[23]。原始共引矩陣中的非零元素往往不多,因而需要對矩陣進行縮減。矩陣縮減一般需要研究人員自行設定閾值,并將低于閾值的行列刪除。然而,這一閾值的設定基本是研究者主觀設定,目前關于閾值設定的研究較少。
1.4生成相關矩陣為了進一步核查分析對象間的相關程度[3],便于后續的分析,ACA需要將原始矩陣轉化為相關矩陣。傳統的轉化方式是使用Pearson相關系數,然而2003年后學界開始了一場對于相關系數的大辯論[24]。爭論點主要有:①Pearson相關系數是否適合應用在ACA中;②Pearson相關系數適合應用在ACA的何種矩陣計數方式中;③Pearson相關系數是否優于其他度量方式(如Cosine距離、Jaccard距離、Euclidean距離和Chi-square距離等);④如果Pearson相關系數不適于ACA,那么如何在現有基礎上改進它;等等。這場關于相關系數的辯論仍在進行中。
1.5數據分析和可視化傳統ACA主要使用了聚類分析(clusterAnaly-sis)、多維尺度分析(multi-dimensionalscaling,MDS)和因子分析(factorAnalysis)進行數據分析和結果可視化。這三種分析方式往往互為補充,互為佐證。在聚類分析上,傳統ACA大多使用層次聚類(hier-archicalclustering)方法進行聚類[3],并且通過樹狀圖來可視化聚類分析的結果。在多維尺度分析上,研究人員通過SPSS軟件的多維尺度分析(ALSCAL),以散點圖可視化其結果;而近期的很多ACA研究則使用網絡分析(networkanalysis)的方法并利用更適于繪圖的軟件進行數據可視化。在因子分析上,傳統ACA使用主分量分析(principlecomponentanalysis,PCA)方式來尋找領域中具有重大貢獻的作者(群)作為主分量。1.6結果解釋與效度分析通過對引文數據的分析處理,能使分析對象的格局更加清晰直觀,并能提供分析對象之間由引文關系形成的相對位置關系和相互關系的親疏程度,再結合學科專業知識,可做出進一步的分析和判斷。
2基于引文發表時間信息的作者共引分析方法
根據傳統ACA的基本假設,兩作者的共引次數越多,代表其研究內容上的共通性越強。然而傳統ACA僅使用了參考文獻列表中的“作者”(referenceauthor)信息,傳統文獻共引分析(documentcocitationanaly-sis,DCA)僅使用了“題目”(referencetitle)信息,它們卻都忽略了參考文獻列表中其他信息對于知識圖譜的影響。筆者在應用傳統ACA方法過程中發現,兩篇同領域引文發表時間的差距越小,其作者越可能研究相似的熱點、解決相似的問題或同課題的不同子問題,因此認定兩作者在該領域的知識圖譜應有較近的關系。也就是說,若在傳統ACA基礎上引入引文發表時間信息將能凸顯共引作者之間的關系,即:①兩作者引文發表時間差小,則表示作者是在同一時期傾向于研究相似的問題,通過時間信息來改進作者共引關系的分析結果,其知識圖譜所展示領域中的明星作者更有說服力,易于產生有意義的研究團隊合作與交流;②兩作者引文發表時間差大,則表示作者雖然在不同時期可能研究相似的問題,但因在當下的時空背景下可能引用的概念方法不同或解決的需求不同,故作者關系在知識圖譜的呈現上應該會有所差異。因此,筆者提出了基于引文發表時間信息的ACA方法,其架構如圖2所示。與傳統ACA方法相比,該方法新增了提取被引文章發文的時間信息以及基于發文時間計算被引文章間關系值,并修改了系數矩陣的計算方法,即圖2灰色的區塊,其余的皆與傳統ACA方法相同。筆者將在
2.1節說明如何計算基于發文時間共引作者間的關系量,并在2.2節詳述如何結合時間信息與共被引作者信息生成作者共引系數矩陣2.1引文間發表時間差異的計算模型———自然對數模型差值越大,函數值越接近于0,如圖3所示。此函數的設計有如下特點:①兩作者的平均發表時間值越接近,函數值越大,這表明兩作者的被引關系較強;②函數值域為[0,1],可簡化后續運算,不需要再將該值進行標準化處理。
2.2綜合引文發表時間和共引作者信息的計算方法為了通過引文作者和引文發表時間這兩個因素來生成系數矩陣,首先需要對共引作者矩陣進行標準化。
3實證結果與分析
3.1數據獲取與清理筆者選擇國際情報學領域期刊JournaloftheAs-sociationforInformationScienceandTechnology(原名JournaloftheAmericanSocietyforInformationScienceandTechnology,簡稱JASIST)2003年1月至2012年6月刊載的所有類型為Article的學術文獻,并在WebofScience(WoS)數據庫中下載了它們的基本外部信息和參考文獻信息,包括題名、著者、發表時間(精確到月)、卷期號、引文第一作者、引文發文年度、引文所在期刊、引文起止頁碼等。經過了初步過濾,筆者選取1,917篇源文獻和64,524條參考文獻。隨后,筆者通過兩次聚類[25]和人工過濾的方式對引文作者的姓名進行了消歧和歸并,并將被引少于10次的作者進行了剔除,得到了953位作者和27,445條參考文獻。為了避免稀疏結果,筆者再次遴選引用量最大的前100位作者,并采用了如前所述的自然對數模型對引文發表時間信息和作者共引信息進行了標準化處理,經過加權和轉化后并構建出最終的共引矩陣。該矩陣主對角線元素均為0。限于WoS提供的題注格式,這里只計算了該作者作為第一作者發文的情況。筆者隨后進行了多維尺度分析和因子分析,并對分析結果進行闡釋和說明。在多維尺度分析中,筆者使用了SPSS20.0中的MDS(ALSCAL)程序,并要求輸出二維散點圖;在因子分析中,筆者使用了SPSS20.0中的“因子分析”功能,選擇分析“主分量”,使用“最大方差分析法”輸出“旋轉解”。
3.2算法實證結果與比對分析為了實證算法的可行性,筆者將綜合引文發表時間的ACA與傳統ACA的實驗結果從多維尺度分析和因子分析兩個角度來進行比對分析。為了便于敘述,本文將傳統ACA方法簡稱為“方法一”,而將筆者提出的綜合引文發表時間的ACA方法稱為“方法二”。限于篇幅,方法二中筆者只展示wA=0.6,wt=0.4的實驗結果,這是多次實驗過程中的最佳權重值。
3.2.1多維尺度分析兩種方法的多維尺度分析結果見圖4。該圖顯示,兩種方法分析結果均將所有作者分為3類。通過文章驗證,左上角作者的研究多與信息計量學或科學計量學等[注1]相關;左下角作者的研究多與信息檢索、信息行為研究或用戶研究等相關;右半部分作者的研究多與語義挖掘、網絡科學或自然科學理論與技術研究等[注2]相關。右半類的作者雖然也有一些從事信息計量學研究,但其在信息計量學研究的同時更為偏重“語義”方面的研究。簡單觀察圖4結果可以發現,方法一同類內的作者分布較為分散,而方法二不同類間作者的距離較大,且同類內的呈現更為緊密。這說明綜合引文發表時間的因素能將作者的相關性展示得更細膩、知識圖譜可視化更為清晰。為了展示兩方法的細微區別,我們在作者集中選取三位作者(作者及其研究領域見表1),并且將這三位作者的研究進行兩兩比較(見圖5)。以共引作者2和共引作者3為例:從方法一角度看,圖5最左邊的數軸顯示,同時引用這兩位作者的文章有36篇(“▲”位置所示),這恰好等于這兩位作者的共引值;從方法二的角度看,若引入每篇文章中共引作者的發表時間差(絕對值),圖5右側點為頂點為“▲”形的折線顯示兩作者有8篇文章是在同年發表且被共引,有12篇相差一年發表的文章被共引。圖5也同時展示了其余作者間的統計結果。在這三位作者的兩兩關系中,共引著作發表時間差均不超過6年;且通過文章驗證,多數共引且發表時間差在3年內的文章均屬于解決相似問題或使用相似方法的研究,而時間差超過5年(含)的文章數量較少,且被引文章要么帶有較為濃烈的綜述色彩,要么可被認定為該領域經典。通過2.1節所示方法的計算,這三位作者的共引文章平均發表時間差值低,筆者利用自然對數模型量化表現作者著作的關系,也符合上述三位作者實際文章的相關性。圖4上方的小窗口用不同序號標識了三位作者在兩種方法下的MDS結果位置。表1顯示,該三位作者的所屬研究領域可視為網絡研究和語義挖掘相關,雖然三位作者的研究方向各有千秋,但在網絡研究和語義挖掘這個維度上有著共通的研究相似性,因而三人能夠被較好地聚類。兩種方法的實驗結果均將三位作者均聚類為同一類,說明兩方法有相似的聚類能力。而方法一展示的三位作者彼此距離較遠,尤其是Ahlgren,Per(標號為1的作者);而方法二中三位作者則緊密地聚集在一起。可以看出,共引文章的發表時間與作者共引數量皆可以顯示作者間研究的相關性,綜合引文發表時間信息的作者共引分析更能細微地顯示作者間的關系。
3.2.2因子分析因子分析是統計方法中從變量群中提取共性因子作為分析數據的方法,所提取的主分量因子的貢獻值(占全部分量的比率)越大則可視為該數據中具有代表性或影響的因子。兩種方法因子分析的部分結果如表3所示,且其分析結果均含有5個主分量。方法一中,第一主分量的貢獻值為36.85%,5個主分量的累計貢獻值為97.79%;方法二中,第一主分量的貢獻值為52.00%,5個主分量的累計貢獻值為99.87%。這五個主分量分別代表的圖書情報學相關領域為:①信息檢索(informationretrievalandseeking);②傳統圖書情報學與情報分析研究(traditionallibraryandinformationscienceandinformationanalysis);③信息計量學、科學計量學與數據科學(informetrics,sci-entometrics,anddatascienceresearches);④信息行為研究(humaninformationbehavior);⑤網絡分析(net-worksanalysis)。這五個主分量并不是孤立的,而是有著不同強弱的關聯性[26]。同一作者可能有著多個主分量,代表該作者在不同領域都有所涉獵。從表3可以看出,表中所列出的部分作者在方法一中所對應的主分量與方法二有所區別。這表明加入引文發表時間的因素能夠將作者在不同年份研究領域偏好的因素加以考慮,并展示出許多傳統方法不易察覺的細節。例如,情報學家Swanson的主要研究領域是信息檢索和信息檢索行為(對應主分量1和4),但他早期發表了幾篇與網絡研究相關的論文[注3],雖然這并不能代表其總體的研究領域,但是融入引文發表時間因素后這一細節則被顯現出來。
4結論與展望
本文以JASIST期刊2003年1月至2012年6月間的學術論文作為數據集,在傳統ACA的基礎上,通過對相同數據集中引文發表時間信息進行收集,綜合計算新的作者原始共引矩陣(系數矩陣),將實驗結果與傳統分析結果進行比較分析。結果顯示:綜合引文發表時間信息的ACA方法無論在多維尺度分析還是因子分析中均能保留傳統ACA的能力,同時該方法的多維尺度分析結果能將同類別間的信息微觀呈現,提高知識圖譜的可視化的程度,并挖掘作者研究著作的偏移和所屬領域的細微變化。綜合引文發表時間信息的ACA方法使得知識圖譜中描繪作者間關系的“距離”更富有物理意義,這使得學科領域內的作者分類將更細微地呈現領域內的科學共同體。在對傳統ACA的擴展方面,本文僅僅引入了引文發表時間這一信息。后續的研究將在原始作者共引矩陣中加入引文發文期刊甚至引文關鍵詞信息等其他復雜因素,進而進行比較分析。
作者:步一 劉天祎 黃文彬 單位:北京大學信息管理系