本站小編為你精心準備了生物醫學研究結構的挖掘參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
隨著文獻數量的急速增長,文本挖掘技術不斷應用于大規模文獻處理,基于文獻的知識發現已經成為文獻挖掘領域的重要內容。1986年,Swanson教授提出基于文獻的知識發現思想,即對非相關的文獻進行整合分析,發現其中隱含的聯系,進而形成新的科學假設。基于文獻的知識發現的核心是通過ABC模型來挖掘概念間的間接關系,即當不相關的實體A與C同時與實體B相關時,A與C也可能相關,這種關聯假設的方法在藥物發現、藥物重定位等領域得到了較好的應用。隨著大量文獻富集,內容相關性會涌現出知識網絡,并通過知識網絡進行關聯挖掘。如通過對文獻詞語共現網絡的研究,總結出當前的研究熱點,分析科研結構,發現研究內容的相關性等。還有一些研究針對具體實體的關聯網絡進行分析,如基因調控網絡、蛋白質相互作用網絡等。此外,部分研究轉向系統層面上考察信息間的整合分析,通過多領域多數據源交叉融合,發現間接的隱含聯系。然而,面對龐大的關聯知識網絡,如何從網絡微觀結構與關聯形成的規律,探討其對文獻知識發現的影響,對提高知識發現的效率具有重要作用。本文基于免費開放的PubMed文獻數據集,構建了一個由文獻數據衍生出的生物醫學實體關聯演化網絡,從而整合不同時期文獻中的關聯知識,并利用復雜網絡理論分析該關聯網絡的拓撲特征,從系統層面分析研究大量文獻集中于科學知識的結構及相關性,為文獻的知識發現引入新的視角與方法,提高知識發現的效率,引導科研人員進行知識發現。
1網絡簡介
1.1網絡的定量描述一個簡單的無向無權網絡可標記對于用節點和邊描述的圖,可以用幾個定量指標來描述圖的性質,包括節點的度、連通性、路徑與聚類系數。節點的度:即節點V在圖G的度,指圖G中與節點V連接的邊數,記為d(v)或k(v)。節點的度主要用于描述節點的連通性。連通性:若G中每對不同節點U,V之間都存在一條通路,則G是連通的,即G為連通圖。路徑:即圖的路徑,指兩個與邊交替出現的序列,且所有節點與邊都不相同。路徑長度是連接兩個節點之間邊的數量,網絡距離可以通過路徑長度來描述,一般采用最短路徑作為連接兩個節點的路徑。平均路徑長度是網絡中所有節點對之間最短路徑長度的平均值。聚類系數:表示圖中節點聚集程度的系數,定義為其鄰居真實連接數目占鄰居最大可能連接數比例的平均。
1.2網絡的拓撲性質圖是一種用來表示實際系統的一種模型。對于圖G=(V,E),如果存在一個映射函數。若將網絡中的邊映射到節點對,那么圖是結構化的,即圖存在一定的拓撲結構;如果映射是隨機的,那么圖就是隨機的。通常按度序列分布與熵定義圖的結構,其中度序列分布按拓撲對圖的分類提供了一種機制,而熵提供了一種對隨機性的測量。一般來說,度序列分布表達了圖的結構信息,熵則表達了圖的結構是否具有規則性。網絡規模很大但平均距離卻很小的性質被稱為小世界效應。小世界網絡一般是指具有相對較小的平均路徑長度、相對較大的聚類系數的網絡。如果一個圖的度序列分布符合冪函數的形式,由于冪函數是標度不變的,通常稱這類圖為無標度網絡。無標度網絡同小世界網絡類似,很多真實網絡都具有無標度特征。
2生物醫學實體關聯網絡的構建與分析
2.1基于共現方法的實體關聯提取生物醫學文獻挖掘研究通常利用共現方法來提取實體的關聯,即當兩個詞語共現于一定的語境中時,詞語之間存在一定的語義相關性[9]。對于實體共出現而言,以句子為最大分析單元最常見。本文基于句子共現的實體關聯提取的基本步驟如下。根據基于自然語言的方法識別出句子的實體NP及其位置。
2.2網絡構建考慮到PubMed數據庫中所有摘要的數據量過大,本文以PubMed中2000-2009年共10年記錄的標題數據為實驗數據集,抽取其中的實體及關聯后,建立關聯知識網絡。為了觀察科學研究的動態結構,構建了按時間(年)增長的演化網絡序列,如表1所示。由于網絡過于龐大,本文未能給出關聯網絡的可視化效果,但從表1的統計結果來看,仍可以觀察到一些有用的特征與規律。從網絡的演化情況來看,網絡的節點與關聯每年都在增長,表明整個研究領域的知識量是不斷增加的,這與每年文獻數量不斷增長的情況是一致的。在關聯知識網絡中,每年都存在新節點新關聯的加入,表明在生物醫學研究領域每年都有新發現,而且每年新增加的關聯數遠大于新增加的節點數。這也反映在較短的時間內,真正具有較大創新性的發現相對較少,大部分文獻仍然是在已有研究問題基礎上的延續研究。總的來說,通過關聯知識網絡的演化分析,一定程度上反映了知識的形成與發展的規律。關聯網絡中節點與關聯的增長,都能反映出新知識的不斷出現。
2.3關聯網絡的拓撲結構分析
2.3.1網絡的連通性從表1的計算結果可知,提取到的關聯網絡是一個非連通網絡。從2000年開始,每一年的關聯網絡都有很多個連通分支,比如2009年的關聯網絡有11770個連通分支。盡管存在如此多的大小不一的連通分支,但每個關聯網絡都有一個最大連通分支,能夠覆蓋網絡的絕對多數的節點與邊,比如2009年的關聯網絡中最大連通分支包含1294509個節點與6667590條邊,分別占整個網絡中節點的98.03%以及邊的99.78%。因此,主要對最大連通分支進行網絡的特征分析。除了最大的連通分支,關聯網絡中其他連通分支的規模都很小,表明科學研究的專業化變得更精細,生物醫學領域研究內容極具豐富性與多樣性;同時也表明在一些特定的領域,領域之間缺乏互通融合,形成了一個個獨立的知識“孤島”。出現大量的相對極小的連通分支,也說明在整個領域存在一些比較“冷門”的研究。
2.3.2網絡的度序列分布如圖1所示,關聯知識網絡呈現冪函數形式,是一個無標度網絡。根據冪律分布的特性,絕大多數節點擁有較少的連接數,而少量的節點擁有極大的連接數。這些擁有極大連接數的節點是關聯網絡的HUB節點,基本都是一些生物醫學研究領域通用的概念。盡管它們無法代表整個領域的研究重點或研究熱點,但其他眾多概念都圍繞它們展開。說明它們在整個生物醫學科研體系中起著非常重要的連接橋梁的作用,而一些連接數較少的節點只代表某個具體的研究對象。關聯知識網絡的無標度特征表明在生物醫學領域中研究重點突出,而圍繞研究重點開展了很多細致的研究工作。
2.3.3計算網絡的聚類系數考慮到計算能力的限制,我們僅以2000年的數據作為測試數據,計算得到網絡的平均聚類系數為0.209390339012,而最大連通分支的平均聚類系數為0.215289709462。接下來構建與原網絡、最大連通分支的節點數邊數都相同的隨機網絡,其平均聚類系數分別為3.37415559158e-05與4.98993799995e-05。顯然,關聯網絡的聚類系數遠大于隨機網絡的聚類系數,表明關聯網絡具有高集群性。關聯網絡的高集群性說明圍繞一個研究主題所開展的各種研究之間具有很高的相關性,相關研究之間更容易形成連接,而它們之間的連接可以形成新的研究成果,這有助于對研究主題進行更深層次的分析和挖掘。根據綜合聚類系數與冪律分布的特征,可推斷出關聯網絡中存在很多集團,集團內部成員之間聯系緊密,而集團之間的聯系相對疏遠,這表明某領域中存在一些研究重點和研究熱點。圍繞這些重點和熱點所展開的大量相關研究之間聯系緊密,形成網絡結構中的集團,并使得集團內部成員的聚類系數很大,最終使得整個網絡的聚類系數較大。
2.3.4計算網絡的平均距離根據網絡距離的定義,當網絡不連通時,網絡的平均距離是無窮大,該關聯網絡是不連通的,因此只計算關聯網絡中最大連通分支的平均距離。以最小的2000年的關聯網絡的最大連通分支作為測試對象,該連通分支的平均距離長度為3.76923247599,表明關聯網絡中的節點平均只需經過4步就可到達其他節點。然后根據2000年的關聯網絡的最大連通分支的大小,建立一個相同大小的隨機網絡模型。該隨機網絡的平均路徑長度約為5.79725740556,顯然,相對于相同大小的關聯網絡來說其平均路徑長度相當小。綜合關聯網絡的聚類系數與平均路徑長度,表明該實體關聯網絡是一個小世界網絡。關聯網絡的小世界特征表明,在生物醫學研究領域,研究主題和研究內容之間關聯的緊密程度非常高,而平均路徑長度很小則說明主題與內容相互之間存在很強的影響。此外,小世界特征也說明在同一個大的研究領域中,從一個研究對象可以很快轉移到另外一個研究對象,二者結合很容易形成新的研究內容。
3結語
基于自然語言處理方法得到的網絡是一個普適的由文獻衍生的關聯知識網絡,它不同于已有的衍生于文獻的生物網絡,不依賴于任何領域特異性的實體關系。因此,通過該網絡可以更好地研究知識本身的發展規律,反映科研問題、概念間的相互關系。從測試數據衍生而來的關聯網絡的演化情況來看,網絡的節點與關聯每年都在增長,表明整個研究領域的知識量在不斷增加,每年都有新節點新關聯的加入。同時,關聯知識網絡的小世界無標度特征,表明在生物醫學研究領域,研究主題和研究內容之間關聯的緊密程度非常高。在同一個研究領域中,從一個研究對象可以很快轉移到另外一個研究對象,二者結合很容易形成新的研究內容,這也驗證了基于文獻的知識發現的思想。總的來說,關聯知識網絡的演化分析,一定程度上反映了知識的形成與發展的規律。關聯知識網絡中節點與關聯的增長,反映出新知識的不斷出現,而且知識網絡的結構與相關性可以更好用于發現有用的關聯,提高文獻的知識發現效率。
作者:閔波 劉愛中 鄭萍 史艷莉 唐春霞 單位:蘭州軍區烏魯木齊總醫院