亚洲一级在线观看,尤物精品国产第一福利三区,亚洲天堂久

本站小編為你精心準備了機構名規范化研究參考范文，愿這些范文能點燃您思維的火花，激發您的寫作靈感。歡迎深入閱讀并收藏。

機構名規范化研究

1引言

采用量化方法對急速增長的海量科研成果進行評價,是政府和科研機構進行科研資金分配、成果轉化、人才培養和制訂長期科研戰略的必要工作。在具體的科技評價研究以及科研管理實踐中,使用最多的評價工具就是ISI開發的數據平臺——基本科學指標數據庫(EssentialScienceIndicators,ESI)。ESI提供前1%的機構、國家、作者和學科等層面的排名數據,一直以來被作為重要的參考標準之一[1]。然而通過本研究大規模的數據分析發現,ESI提供的數據在準確性方面存在較大誤差。在作者分析和機構分析方面的問題尤為突出,如作者重名現象比較嚴重和機構名稱混亂等問題。當前大多數建立在ESI評價數據之上的文獻計量學研究和科技評價管理決策,都不同程度受到數據可靠性問題的影響。有關機構合作網絡的研究證實了機構名稱的歧義對機構科研評價的影響是顯著存在的[2]。由于高被引論文和作者在大學排名中占有比較高的比例,因此沒有對機構名稱進行統一,將直接影響機構排名位置[3]。由于各種復雜的原因,比如作者書寫習慣、機構名翻譯方法的差異、機構合并和更名、隸屬關系不清和數據錄入錯誤等問題,導致機構統計數據的準確性受到影響。雖然機構名稱的表現形式多樣,但機構名稱的層次關系在總體上存在一定規律。WebofScience(WoS)中提供的已標注的結構化機構信息可以作為機構規范化的重要參考。為了改善基于海量數據的科技評價中的數據可靠性問題,克服相似度匹配或者頻率統計方法在機構名稱規范化方面存在的缺陷,本研究提出基于松散的詞面相似度的機構名稱映射算法,該算法采用規則和統計相結合的策略實現多個機構名稱到一個機構實體的映射,從而達到機構名規范化的研究目的。本研究將對基于規則的機構名規范化算法和傳統方法進行對比,通過多個量化指標評估算法的有效性。

2相關研究

引發機構名不規范現象的原因有很多種,在形式上也比較多樣化,主要體現在以下5個方面:翻譯方式不同;書寫習慣不同;機構變遷;作者拼寫或者數據加工錯誤;總部和分支關系。不同的原因導致不同的錯誤表現形式,因此在機構名規范化的過程中,需要采用不同的技術手段識別和歸并這些數據。國內從文本檢索的角度對機構名消歧已經有很多嘗試,比如利用社交網絡平臺Twitter信息的機構名聚類研究[4],利用百度百科詞條的命名實體識別等[5]。但用于科技評價的機構名規范化方法還比較少。從科技評價的對象和評價方法方面分析,被評價實體可能是作者、期刊、機構或者國家等。雖然也存在期刊更名或者國家名稱譯名不統一等情況,但作者名和機構名的情況更為復雜,數據噪音問題更為突出,并且相互關聯。與作者名規范化所不同的是,基于科學文獻的作者姓名識別可以參考的信息很多,比如篇名、摘要、關鍵詞、期刊名、合作作者、地址和電子郵件地址等,而可供機構名識別的直接信息非常有限。機構名規范化的關鍵問題是解決機構名稱和機構實體之間的對應關系。這種關系主要分為兩種情況:一個機構名對應多個機構實體;多個機構名對應一個機構實體。一般情況下,第二種情況更為普遍,對評價結果的影響也更嚴重,因此也是本文的重點研究內容。

采用基于科技文獻的機構名規范化的策略主要分為兩種,一種是基于機構注冊列表的機構映射,另一種是以機構名稱文本相似度為依據的機構名稱聚類。(1)在前者的相關研究方面,Abramo等在針對意大利大學評價的研究中采用一個人員–機構目錄,該目錄包含意大利大學系統中每個研究者所屬學科領域、大學、學院以及職稱信息[7]。(2)機構名稱中的關鍵詞一定程度上體現了機構的性質和類別,因此有些研究者采用以文本為基礎的相似度比較策略進行機構名規范化。Morillo等利用機構名中抽取的關鍵詞對西班牙的研究機構進行類別標注。Jiang等采用一種基于規范化表達距離(NormalizedCompressionDistance)的機構名稱聚類方法,試驗結果表明該方法比較有效地實現了針對同一機構不同名稱的聚類[9]。Onodera等在進行作者識別研究中,對所有在機構名稱中出現的詞的頻率進行統計,并賦予不同的權重,根據兩個機構地址中共同出現的詞的權重之和衡量它們的相似程度[10]。French等提出利用字符串的編輯距離進行聚類的方法,并且以文獻作者的機構地址為對象進行實驗,結果證明基于編輯距離的技術能有效地實現對機構地址的聚類[11]。機構名映射是作者識別的一個重要環節,目前大多數作者識別的研究中或多或少會涉及到機構名的規范化問題。其中最常見的方法是基于機構名稱字符串中共同出現的單詞數量判斷兩個字符串所代表的機構是否對應于同一機構實體。經過科研管理部門人工加工和維護機構列表雖然在權威性和準確性方面有一定優勢,但實際上很難獲得和維護一個包含全世界各個國家科研機構名稱的完整的、格式統一的信息列表。在面對海量信息的機構評價中,基于登記制度的機構列表的應用范圍和使用效果將受到很大的限制。基于詞面相似度比較的方法為自動化的機構名稱映射提供了新的途徑,其有效性已經得到證明,但這種方法也存在一定局限性。通過大量的機構字符串分析可以發現,很多機構名稱的詞相似度很高,或者編輯距離很小,實際上并不對應于同一個機構實體,而相似度低或者編輯距離大的機構名稱卻很可能對應于同一個機構實體。因此通過單一的詞相似度或者編輯距離判斷兩個機構名字符串是否對應于一個機構實體的方法是不可靠的。

3研究方法

3.1方法概述在數據加工過程中,WoS文獻記錄中的地址字段被分成若干部分,主要以“主機構名,部門名稱,地址,郵編,地區或者國家”的形式出現。對同一個機構實體,之所以存在多個與之對應的機構名稱,主要原因有:翻譯方式的不同、書寫習慣不同、機構變遷、拼寫或者標引錯誤,以及總部和分支隸屬關系問題。對WoS中導出的大量文獻記錄中的地址字段進行分析,可以發現在同一個作者名的文獻集合中,如果兩個主機構名稱具備一定相似度,并且其下屬機構名稱或者郵編相同,則這兩個機構很可能對應于同一個機構實體。比如對于作者Diao,KF存在以下兩個不同的機構地址:①LinyiNormalUniv,DeptMath,Linyi276005,Shandong,PeoplesRChina.②LinyiUniv,SchSci,Linyi276005,Shandong,PeoplesRChina.地址1和地址2中的主機構名分別為“LinyiNormalUniv”和“LinyiUniv”,“DeptMath”和“SchSci”為其下屬學院。除了國家和省份字段外,兩個地址的郵編都是“Linyi276005”,因此可以初步判斷LinyiNormalUniv和LinyiUniv對應于同一個機構實體。上述樣例中體現的規律為機構名規范化操作提供了線索。因此筆者將以此為研究假設,在借鑒傳統基于簡單或者加權詞面相似度方法和郵編匹配方法的基礎上,提出基于規則和編輯距離結合的機構名規范化算法。該算法建立在WoS的結構化英文題錄數據基礎上,因此可以獨立于不同的原文語種,有效地實現機構名的識別和聚類。

3.2基于主機構名詞面相似度和郵編匹配的方法機構名規范化的過程本質上是對機構名進行聚類。對數據樣例分析可以發現,無論何種原因產生的機構名稱的多樣化問題,在很大概率上這些機構名稱之間滿足一定的詞面相似度。比如“UnivColorado”和“UnivColoradoDenver”,后者是前者的一個校區。利用詞面相似度進行機構名稱聚類的缺陷是,很多機構名稱即便比較相似,但也可能不指向同一個機構實體,如“UnivSeoul”和“SeoulNatlUniv”。因此,單純依靠主機構名的詞面相似度的聚類方法并不可靠,需要通過其他信息進行二次匹配。大多數機構地址中包含了郵編信息,因此可以作為二次匹配的依據。由于各個國家的郵編格式存在很大差異,有的是純粹數字,有的是數字和字母結合,因此本研究將利用模糊匹配算法識別機構地址中出現的連續數字字段作為郵編,而不是只提取其中的數字部分,比如“Linyi276005”。

3.3基于加權的地址相似度方法Onodera等在作者識別研究中,將作者機構地址之間的加權相似度作為作者相似度判斷的第一步過濾條件。在該研究中沒有涉及到對該方法的有效性測試,因此本研究將參考Onodera等的詞權重分配方案,利用改進的相似度計算方法實現機構名的規范化。算法按照一個詞在機構地址中出現的頻率分配權重,具體詞權重分配方案[10]如表1所示。根據TF-IDF的原則以及對大量機構名分析結果顯示,在機構名中一個詞出現的頻率越高(同一地址中一個詞出現多次則多次計數),它對機構實體的區分能力越弱,權重也就越低。為了提高機構名識別的準確性,本研究也采用先匹配國家名稱的做法。如果兩個地址的國家字段相同,才進入相似度計算過程,否則給兩者之間的相似度直接賦值為0。Onodera等將相似度定義為兩個地址之間除了國家字段外,出現的相同詞的權重之和[10],這種計算方法沒有考慮詞長問題,地址越長越容易獲得高的權重值。本研究將利用兩個地址中出現不同詞的數量,對權重之和進行平均,獲得由所有地址組成的相似度矩陣。

3.4基于規則和編輯距離的方法基于規則的機構名規范化方法建立的前提是機構地址中存在上下級的結構化關系。如果一個機構名和另外一個機構名滿足松散的相似度(詞面相似度或者編輯距離),并且這兩個機構名對應的下級機構或者上級機構名相同,則它們很可能對應于同一個機構實體。根據機構規范化操作的步驟,本研究設計了規則和編輯距離相結合的機構名規范化算法,其分為三個部分(算法的詳細描述參見文獻[14]):(1)建立作者–機構名稱對應表。從原始數據中抽取作者名和對應的機構名,形成的對應表中每個作者對應于一個或者多個機構地址。由于WoS原始數據中提供的作者全名信息在很多情況下仍然是作者名簡寫,因此這里抽取作者簡寫作為作者名。雖然可能會加重作者重名問題,但數據穩定性可以得到保障,并且作者識別不是本研究的目標。如果多個同名作者對應的機構名稱有重疊則合并作者機構(即視為一個作者)。(2)基于作者塊的機構名聚類。本研究采用作者識別中的以作者塊為單位進行機構名識別操作的策略[6],即將作者–機構名稱對應表中的作者按照名稱進行分塊,在塊內部再進行機構名稱比對。雖然不能認為同一個作者塊中的多個機構名稱一定對應于同一個機構實體,但相似機構名很可能存在其中。根據機構名規范化的特點,針對一個特定的作者塊,本研究提出以下規則和算法組合(N1和N2分別表示當前集合內任意兩個機構名):規則1:如果N1和N2包含的詞完全相同,只是順序不同,則加入集合C;如果N1和N2詞長相等,但包含的詞不完全相同,如果Sim(N1,N2)＞0.6,則加入集合C,公式如下。規則2:如果N1和N2詞長不相等,但S(N1,N2)≥2,則將N1和N2組合加入候選集合C。規則3:如果N1和N2其中一個是另外一個的子串或者縮寫形式,則將N1和N2組合加入集合C。規則4:如果N1和N2之間的編輯距離小于0.2,則將N1和N2組合加入集合C。規則5:當前作者塊的論文地址中,任意分別包含集合C中的機構名稱N1和N2的兩個地址對應的國家名稱相同,則保留集合C中的N1和N2組合,否則刪除。規則6:參考規則5的結果,如果包含N1的地址和N2的地址Address1和Address2的切分長度不同(以逗號切分)或者切分長度相同但小于等于3,并且N1和N2對應的子機構名相同(即地址的第二個部分),則加入集合D。規則7:參考規則5的結果,如果Address1和Address2的切分長度相同并且大于3,則比較它們中間部分(除主機構名、國家名稱和省份)是否相同,如果有任意一個部分相同,則將N1和N2組成加入集合D。(3)基于頻率的機構名稱映射。以上的多條規則的篩選后,產生的集合D中保存的是已經識別出來的可能相似的機構名稱對。為了提高準確率,本研究采用的方法是將頻率超過指定閾值的機構名稱對進行級聯,從而形成一個個集合,每個集合包含一個特定機構實體的不同形式的若干名稱。頻率閾值可以根據實際的應用要求進行指定。如果指定比較高的閾值,獲得的機構名稱映射往往是比較常見的針對某一個特定機構的多對一現象;反之如果設定比較低的閾值,則能發現很多因作者本人或者數據加工錯誤導致的偶發性機構名多對一現象,但準確率會下降。為了對本研究提出的基于規則和編輯距離的機構名規范化方法進行詳細評測,將對上述三種方法進行平行測試,并通過多個指標的測試結果全面評估其有效性。

4實驗

4.1數據準備為了使得本研究的數據在后續的評價實踐中和ESI的排名數據形成對比,采用的數據收集策略是,以ESI的學科劃分為參考,從WoS中導出文獻題錄信息,對每個學科進行三種機構名規范化策略的獨立測試。為了充分評估各種策略在不同學科的適用性,以數學、計算機、心理學和經濟與商業4個學科發表于2008年–2011年的文獻元數據為測試數據集。

4.2數據處理在采用基于主機構名和郵編的機構名規范化實驗中,計算兩個機構名的相似度(余弦函數)。如果相似度為1,則直接視為同一機構;如果相似度大于閾值(根據測試,這里設定0.7),則進入下一步郵編匹配。對主機構名是縮寫(詞長為1)的情況,直接采用郵編進行匹配,而不進行相似度計算。所有通過郵編匹配成功的機構名稱對將被視為對應同一機構。在基于加權的地址相似度計算中,從上述4個學科的數據集中分別抽取不同的詞并且統計頻率,根據頻率形成詞權重表,形成的權重分布頻率如表2所示。形成地址相似度矩陣后,將主機構名相同的地址相似度設為0,將每個地址對應的其他地址按照相似度降序排列,相似度最高的地址對應的主機構名則視為和當前主機構名表示同一個機構實體。基于規則的機構名聚類中,需要進行作者–機構表的建立、機構名聚類和頻率過濾三個步驟。

4.3算法評測為了驗證基于規則的機構名規范方法的有效性,將以信息檢索中最經典的兩個指標檢準率和檢全率對上述提到的三種策略在不同學科的表現進行測試。邀請了兩組評測人員分別參與到兩個指標的評測中,并且為了確保評測結論的可靠性,每個小組由兩名評測人員構成。每個評測小組的指標結果由兩名評測人員的數據匯總獲得。評測過程中參考機構名稱出現的論文題名、全文、Wiki和機構網站等信息,判斷機構名識別結果的正確性。基于主機構相似度和郵編的方法(簡稱PB),以及加權相似度算法(簡稱SB)在原始數據集上運行所產生的結果數量非常龐大,給檢準率的判定帶來困難,并且使得檢全率難以獲得。因此,為了減輕評測負擔,除了基于規則的算法(簡稱RB)的檢準率評測外,其他兩種方法的檢準率評測和所有檢全率評測均在隨機抽樣的數據集上進行。剔除作者–機構對應表中所有超過一篇的作者,從中隨機抽取30個作者名,由這些作者署名的文章組成抽樣數據集。各個學科的數據量為:數學291篇,計算機科學444篇、心理學380篇,經濟與商業194篇。(1)檢準率指標。在檢準率評測中,所有以上下級隸屬關系出現的機構名稱對都將被視為識別正確。由于基于加權相似度算法產生的是相似度矩陣,因此在評測中選取每個學科所有地址兩兩之間相似度最高的20組進行正確性判斷,如果截斷處有多個相同相似度的地址則順延。為每個地址選取與之最為相似的三個地址,如果其中一個為正確,則視為識別正確的主機構名稱對。基于規則的算法采用靈活的頻率控制策略,本實驗在檢準率評測中采用的頻率閾值為2。三種算法運行獲得的4個學科的檢準率數據如表3所示:從評測結果來看,加權相似度算法在其中兩個學科的檢準率最高,基于規則的算法相對比較均衡和穩定。從后者的評測結果可以發現,由于科研活動的特點和學術規范要求不同,在軟科學領域,基于規則的算法的準確率要低于硬科學。(2)檢全率指標。由評測人員手工識別測試集中出現的所有機構名稱對應情況,并建立對應表,再對上述三種方法的運行結果進行判定。對基于加權相似度算法的檢全率判定策略同上,而對基于規則的算法采用了頻率為1和2的兩個級別的評測(分別用RRB1和RRB2表示)。最終的評測結果如表4所示。通過檢全率評測數據可以發現,所有方法的檢全率都遠低于檢準率。這說明在機構名規范化過程中,已經識別出的機構名準確率比較高,而對出現頻率比較低的機構名規范化效果還不夠理想。相比之下,本研究提出的基于規則的規范化方法在檢全率方面最優。和檢準率類似的情況是,硬科學領域的檢全率總體上要高于軟科學的檢全率。(3)綜合指標。為了綜合評價三種策略的有效性,表5提供了以F值度量的綜合指標(其中FPB采用了基于RRB2的評測數據)。從事心理學研究的機構涉及大學、醫院、研究所等,因此在機構名的形式上比較復雜,從而導致了整體的機構識別效果不夠理想。基于郵編的匹配方法在多個機構共用相同郵編的情況下,會出現識別錯誤;而基于詞加權的方法沒有考慮到機構的層級關系,并且在相似性判斷方面不夠靈活。總體上,本研究提出的基于規則的組合算法在算法設計上對上述問題進行了改善,并且實驗數據表明該算法要優于其他兩種。即便基于規則的組合算法在大數據集的測試中表現良好,但仍然存在不能自動識別的機構關系。上述三種方法的入口是機構名的詞面相似,而在某些情況下,兩個不相似的機構名稱也可能對應到一個機構實體。此外,在美國、法國等國家的大學和大學系統混合存在,對大學系統內部各個大學之間的隸屬關系判斷失誤,也是導致機構名規范化結果不準確的原因之一。

5結語

在以往涉及機構名稱規范化或者相似性判斷的研究中,對機構名規范化進行獨立測試的研究比較少。Jiang等的研究顯示采用規范化表達距離的機構名稱聚類方法的平均準確率為83%[9],但該方法采用的測試文獻集來自于同一個機構,機構名稱的表現形式相對單一,因此其有效性還有待驗證。通過主機構名詞面相似度和郵編匹配結合的方法,識別效果有待改善。本研究對Onodera等采用的基于加權地址相似度計算的方法進行評測[10],可以發現,雖然該算法在識別個別人工難以發現的機構名對應案例時,有比較好的效果,但整體表現不夠穩定。本研究采用的基于規則和松散相似度結合的方法,既保留了相似度匹配的優點,又可以充分利用機構之間的隸屬關系,幫助識別多個機構名稱對應一個機構實體的現象。實驗結果表明,該方法在各個學科頻率閾值為1和2兩個層次的檢準率評測中表現穩定,在4個學科的平均F值達到55.50%,綜合表現要好于其他兩種方案。在檢全率方面不夠理想的主要原因是,基于規則的方法在閾值控制方面有一定的要求。因此小樣本集合上的實驗會對評測結果有一定的影響,在實踐中可以通過大的統計樣本改善算法的運行效果。雖然基于規則的機構名規范方法整體上要優于其他兩種方法,發現了大多數常見的機構名多對一現象,但另外兩種方法在發現有些文獻頻率比較低的機構名稱對時,有比較好的效果,這一點從檢準率評測數據中可以發現。在后續的研究中,可以嘗試將這三種方法相互結合,以改善低文獻頻率的機構名規范化效果,從而使科技評價中的數據統計更加精確,評價結論更加可靠。

作者：楊波楊軍威閻素蘭單位：南京農業大學信息科學技術學院

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

機構名規范化研究范文

擴展閱讀

推薦期刊

機構與行政

中國機構改革與管理

國際原子能機構通報

精品推薦