本站小編為你精心準備了科學數據資源聚合機制探究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《前沿科學》2018年第1期
【摘要】根據科學數據資源的內在結構和聚合程度,科學數據資源聚合可分為基于數據的聚合、基于信息的聚合、基于知識的聚合。三個層次的科學數據資源聚合機制分別以分布式構建技術、元數據互操作技術、本體技術為基礎,文章介紹不同聚合機制的內涵與特征,并輔以典型應用予以具體分析。
【關鍵詞】科學數據;數據聚合;數據共享
0引言
科學數據資源是以公益性和基礎性為主體的、具有科學研究應用價值的數據資源,包括在觀測、監測、調查、試驗、實驗以及研究等科技活動中產生的原始性數據,以及根據不同科技活動需求系統加工整理的各類數據[1]。科學數據資源是國家科技創新和發展的基礎性和戰略性資源。由于科學數據資源使用不同的數據模型、專業術語、數據格式表達,并分別存儲于不同的數據源,這給科學數據資源共享造成了很大的困難。科學數據資源聚合通過對多源異構的科學數據資源進行揭示,構建資源內容相互關聯、多維度、多層次的資源體系,為用戶提供一站式資源共享服務。本文系統梳理了科學數據資源的聚合機制,并對每一種聚合機制輔以典型案例予以分析,旨在為科學數據資源共享提供路徑選擇和方法支持。
1基于數據的科學數據資源聚合機制
基于數據的科學數據資源聚合是對多源異構的科學數據進行邏輯上或物理上的集成,屏蔽各種數據源的差異,并通過統一的檢索界面實現科學數據資源的互聯和共享。基于數據的科學數據資源聚合機制主要包括數據倉庫聚合模式、中間件聚合模式、聚合模式。
1.1數據倉庫聚合模式
數據倉庫聚合模式通過將不同來源和結構的科學數據按照學科、主題等方式建模,并集中存儲于本地數據庫,用戶通過對本地數據庫的訪問實現對多個異構數據源的一次性檢索。徐志勇設計的面向快速服務的大數據聚合系統即采取數據倉庫模式聚合網絡數據資源,系統通過在線運行的方式采集網絡數據。對于采集到的數據,首先根據行業或領域歸類,然后按照逐級劃分的方式進一步細化分類,并分別存儲在不同的數據庫中。對于用戶的檢索請求,系統通過信息檢索單元依次檢索各個數據庫,然后將檢索結果傳送給結果分析單元。結果分析單元對檢索結果進行去重判定,然后將經過篩選的結果傳送給結果總結單元。結果總結單元對上述結果進行歸納,并按照特定的序列排序,形成最終結果。最終結果通過結果顯示單元反饋給用戶。該系統的特點是,海量網絡數據經過系統的逐級劃分實現細化,為后續的快速檢索服務奠定基礎;將數據分別存儲在不同的數據庫中,既可以增加信息的存儲量,又有利于后期的多庫檢索,提高檢索效率;去重判定則保證了檢索結果的準確性[2]。數據倉庫聚合模式通過對異源、異質、異構的科學數據進行抽取、轉換、整合,將其集成到數據倉庫中,用戶通過訪問本地數據庫,實現對分布式科學數據的一次性檢索。數據倉庫聚合模式是對科學數據進行集中存儲、管理、檢索的方法。其優點是數據質量高、查詢速度快,缺點是建設數據倉儲需要大量的存儲空間,所獲數據具有時滯性。
1.2中間件聚合模式
這是一種對異構科學數據進行集中式管理和分布式存儲的虛擬聚合模式[3]。它通過在用戶與數據源之間設置中間件層,實現不同數據源之間的信息轉換和數據映射,完成科學數據的多源檢索和統一輸出。賴會霞和張仕設計的基于最小依賴的細粒度科學數據融合系統,采用中間件聚合模式聚合互聯網上的多源異構科學數據。系統框架如圖1所示,包括:(1)數據采集服務器:訪問網絡上的數據庫、HTML數據、XML數據,并獲取相應信息。(2)映射及依賴管理服務器:存儲和管理數據源、系統最小依賴集、數據源模式與系統基礎數據模式的映射關系。(3)信息融合服務器:通過映射及依賴管理服務器獲取數據源和數據模式映射關系等信息,通過調度數據采集服務器訪問和獲得數據源數據,并進行數據融合處理。(4)數據服務器:解析用戶的數據請求并生成查詢策略,通過信息融合服務器的查詢處理模塊訪問融合信息數據庫,然后將查詢結果返回給數據格式化模塊,按照用戶要求格式化后反饋給用戶。(5)系統交互管理服務器:為數據源用戶和管理用戶提供可視化操作界面。數據源用戶借此登記數據源的訪問方法、訪問路徑、數據源數據模式和基礎數據模式之間的映射規則,并由映射及依賴管理服務器存儲。管理用戶借此對數據融合系統進行管理操作。基于最小依賴的細粒度科學數據融合系統采用模塊化構造,能夠根據需要增加和擴展服務器,有效解決了數據聚合系統重復開發,共享性差等問題;系統采用開放式結構,各個服務器遵循既定的通信接口,各功能模塊既可以設置于同一臺服務器,也可以設置于分布式環境下的多臺服務器,能夠適應不同規模的應用[4]。中間件聚合模式通過在數據與用戶之間搭建中介媒介完成異構數據聚合,用戶無需了解各個數據源的檢索要求,就可以一次性集成檢索多個數據源。中間件聚合模式的優勢在于,所獲數據是異構物理數據源的實時數據,保證了數據的新穎性和時效性。不足之處在于,對于每一個查詢請求,中間件都需要遍歷所有分布式數據源,檢索速度慢、效率低[5]。
1.3聚合模式
聚合模式主要通過三類Agent實現科學數據資源的聚合:用戶Agent、資源Agent和方Agent。用戶Agent提供用戶與聚合系統的交互接口;資源Agent將多源異構資源按照聚合系統的表示形式進行描述和轉換;方Agent將用戶Agent發出的查詢請求與所要查詢的資源Agent進行匹配[6]。葛敬軍等人基于聚合模式構建領域科學數據云,將異構數據中心連接成虛擬的數據網絡,為領域科學數據的聚合、訪問、管理提供環境和服務支持。領域科學數據云的總體框架如圖2所示,包括:(1)虛擬化資源層:通過虛擬化技術把硬件IT資源轉變為動態虛擬計算資源池、存儲資源池和網絡資源池;通過虛擬化引擎把軟件IT資源轉變為虛擬主機、虛擬數據庫和虛擬應用。(2)數據云模型層:在虛擬化資源的基礎上,通過數據云模型、數據橋接入模型、異構源集成模型、資源消息模型,為分散在多個數據中心的科學數據資源的聚合提供模型支持。(3)資源聚合層:通過連接系統連接各個虛擬數據中心,將數據中心的科學數據資源聚合成為虛擬的數據云,構建支持科學數據一體化管理和服務應用的云環境。(4)服務管理層:提供科學數據服務的門戶界面和服務接口,以松耦合的方式為用戶提供數據存儲、目錄檢索、數據檢索、數據處理等數據服務以及可視化管理工具[7]。Agent具有自治性、交互性和自適應性等特點,聚合模式通過Agent的上述特點實現科學數據的自動收集、分類、標引、聚合,更加適應科學數據分布性和異構性的特點,彌補了數據倉庫聚合模式和中間件聚合模式需要指定數據源的不足,擴大了資源獲取的范圍和資源應用的效率[8]。另外,聚合模式能夠將資源聚合過程中繁重的計算任務細分到多個Agent,這種并行運算方案極大地提高了資源聚合的效率和資源聚合的靈活性。
2基于信息的科學數據資源聚合機制
基于信息的科學數據資源聚合通過對科學數據對象之間的關系進行揭示和組織,使用戶能夠一站式獲取科學數據及其關聯資源。基于信息的科學數據資源聚合主要通過元數據實現。元數據是一種相對成熟的科學數據組織技術,當前主流的科學數據共享平臺主要以元數據為核心實現科學數據的檢索和共享[9]。基于信息的科學數據資源聚合機制,就是通過科學數據的元數據描述、組織、搜索、關聯,將存儲于不同物理位置的科學數據進行邏輯集成。黎建輝等人針對全球變化研究領域難以高效定位與匯聚分布、異構的遙感空間科學數據的情況,設計了一種基于元數據的空間科學數據自動聚合方法。首先,選定空間科學數據源,由服務器對其進行定期訪問,并生成下載任務。服務器根據下載任務下載元數據文件并保存,然后對下載的文件進行質量檢查、元數據項提取、元數據轉換、元數據入庫和建立數字索引。服務器將元數據文件路徑、元數據項保存到元數據項數據庫并建立索引。服務器建立元數據文件、元數據項數據庫數據、索引數據之間的映射關系,并提供統一的數據檢索接口。服務器根據查詢條件,查詢并返回實體數據;如果沒有檢索結果則提交數據預訂申請,生成實體數據下載任務進行下載,并對下載數據進行質量檢查和元數據項更新。該科學數據自動聚合方法可以一站式查詢、獲取分布在全球各地的海量、異構空間科學數據資源,很好地解決全球變化研究領域的數據自動匯聚問題[10]。為了最大限度地幫助網絡文學工作者利用網絡文學數據,推動網絡文學的發展,孟念珩發明了一種基于元數據的網絡文學科學數據匯交系統。系統框架如圖3所示,包括:(1)收集模塊:根據不同學科不同類型數據的共有屬性,如學科屬性、采集時間、采集地點、類型、采集單位、保管存放地點等,組建數據的元數據內容,設計元數據標準格式。(2)鏈接模塊:利用網絡文學科學數據的元數據組織管理數據,建立各個信息對象之間的關系,為用戶提供多層次、多途徑的檢索體系,方便用戶發現、檢索和使用數據。(3)獲取模塊:獲取用戶提交的資料數據、查詢條件、網站信息。(4)輸入模塊:將查詢結果信息提交到用戶指定的網站,并將返回結果編碼。(5)拆分、匯總模塊:根據HTML標簽截取返回結果中的數據內容,然后按照設定的模式拆分數據內容,并將其放入對應的字符串數據集進行匯總。(6)輸出模塊:將檢索到的所有結果保存到數據集并輸出。網絡文學科學數據匯交系統利用元數據聚合數據資源,從而形成立體化的資源服務體系,便于用戶通過多種方式獲取和使用數據[11]。基于信息的科學數據資源聚合的核心是通過元數據互操作,在不同數據源之間建立關聯,揭示客觀存在于其中的數據實體的關系,從而使分散的、異構的科學數據及其關系形成一個有機關聯的整體。基于信息的科學數據資源聚合的優勢表現為資源聚合的全面性和系統性,聚合范圍涵蓋不同來源、不同載體、不同類型的科學數據,并且可以在“一站式”檢索的基礎上,獲得具有不同關聯關系的科學數據。
3基于知識的科學數據資源聚合機制
基于知識的科學數據資源聚合是對數據實體中包含的概念及概念之間的關系進行表征,并構建不同科學數據實體中概念之間的關聯,便于用戶對科學數據的理解和重用。本體是人工智能領域中一種先進的知識表示方法,其概念顆粒度比分類詞、主題詞、主題圖等的概念顆粒度更小,也更適用于揭示精確語義關系和語義推理。基于知識的科學數據資源聚合機制就是通過構建本體庫,實現語義層面上的科學數據資源聚合[12]。耿玉水和寇紀淞針對大規模的數據密集應用,構建了云計算環境下基于本體的異構數據聚合系統。系統利用部署在云端的異構數據集成接口,對云端的異構數據進行數據格式和數據語義的集成。具體而言,采用基于XML的數據格式解析中間件進行數據格式的重新整理,解決數據結構沖突;利用語義沖突檢測機制主動發現并解除語義沖突,實現異構數據語義集成。部署在云端的聯邦虛擬數據庫,利用異構數據結果集成接口連接云端的各個異構數據集成接口,并對這些接口提供的已完成數據格式和數據語義集成的數據進行再集成。基于本體的異構數據集成模型為異構數據的統一檢索和查詢,以及異構數據的關聯與映射提供了一種便捷的實施框架[13]。顧茜等人針對SaaS(軟件即服務)等網絡應用所積累的大量托管異構數據,設計了一種基于云計算平臺的網絡應用數據聚合系統,以實現基于語義的網絡應用數據的聚合。該系統采取的即是基于知識的科學數據資源聚合機制。系統框架如圖4所示,包括:(1)本體庫生成模塊:根據現有知識建立本體庫。(2)關鍵詞提取模塊:從海量網絡應用數據中提取網絡應用的關鍵詞。(3)相似本體確定模塊:計算網絡應用的關鍵詞與本體庫中本體的語義相似度,確定網絡應用在本體庫的相似本體。(4)描述生成模塊:使用RDF描述與本體庫中的本體相似的網絡應用數據。(5)數據存儲模塊:將網絡應用的數據存儲在本體庫中相似本體下的網絡資源存儲節點。(6)關鍵詞查詢模塊:接收用戶通過查詢系統輸入的查詢關鍵詞,通過語義計算查詢與關鍵詞語義相似的本體,并將該本體下存儲的應用信息庫反饋給用戶[14]。本體作為一種具有結構化特點的術語集,通過對領域知識的規范描述,使領域知識可以被復用和共享。基于知識的科學數據資源聚合,通過本體的語義映射實現異質異構科學數據之間的語義聯系,將相對獨立的科學數據連接為立體的知識網絡,為用戶呈現出具有完整結構、規范有序的知識地圖,從而真正實現領域知識的共知和共享。
4結語
科學數據資源聚合需要依賴一定的技術手段,三個層次的科學數據資源聚合分別建立在分布式構建技術(數據倉庫、中間件、Agent)、元數據互操作技術、本體技術之上。基于數據的科學數據資源聚合通過先進的信息技術對異構異質的科學數據資源進行物理集中或邏輯集成,實現多種資源的“一站式”檢索,但是未對數據對象之間的關系進行有效揭示和組織。基于信息的科學數據資源聚合機制借助元數據實現,由于元數據存在資源描述粒度較大、缺少全領域共享概念模型等問題,導致以元數據為核心的科學數據資源聚合機制難以解決科學數據之間的語義異構問題,無法實現語義檢索和知識推理。基于知識的科學數據資源聚合機制,通過本體技術對數據實體的內部概念和語義進行揭示,對數據的描述粒度也更加細化,并且易于為關聯數據[15],形成開放互聯的科學數據網絡。基于知識的科學數據資源聚合使科學數據從孤立走向互聯,從封閉走向開放,必將成為今后科學數據資源共享的發展方向。
作者:吳衛娟