前言:我們精心挑選了數篇優質科技館科普知識文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
一、火災安全
1、點燃的蠟燭、蚊香應放在專用的架臺上,不能靠近窗簾、蚊帳等可燃物品。
2、到床底、閣樓處找東西時,不要用油燈、蠟燭、打火機等明火照明。
3、中小學生不要隨身攜帶火柴、打火機等火種。
4、不能亂拉、亂拉電線,隨意拆卸電器,用完電器要及時拔掉插銷。
5、發現燃氣泄漏時,要關緊閥門,打開門窗,不可觸動電器開關和使用明火。
6、陽臺上、樓道內不能燒紙片,燃放煙花爆竹。
7、吸煙危害健康,學生不要吸煙,躲藏起來吸煙更危險。
8、使用電燈時,燈泡不要接觸或靠近可燃物。
二、交通安全
冬季如何注意交通安全
冬天寒風凜冽,雪花飄飄。有人戴上了帽子和口罩,可別遮住了自我的眼睛,此外,地面上結起了一層冰,道路又濕又滑,走路,騎車稍不留神,就要摔跤,行走時不能急奔快跑。不能在道路上堆雪人、打雪仗和滾雪球,這樣既不安全,又會影響交通,甚至發生車禍。一年四季氣候不一樣,同學們交通安全防范不能放松。
1、指揮燈信號的含義
(1)綠燈亮時,準許車輛、行人通行;
(2)紅燈亮時,不準車輛、行人通行;
(3)黃燈亮時,不準車輛、行人通行,但已超過停止線的車輛和已經進入人行橫道的行人,能夠繼續通行;
(4)黃燈閃爍時,車輛、行人須在確保安全的原則下通行。
2、行人必須遵守下列規定:
(1)須在人行道內行走,沒有人行道的,須靠邊行走;
(2)橫過車行道,須走人行橫道。
(3)不準穿越、倚坐道口護攔。
(4)不準在道上扒車、追車、強行攔車或拋物擊車。
(5)列隊經過道路時,每橫列不準超過2人。兒童的隊列,須在人行道上行進。
3、橫穿馬路注意事項:
橫穿馬路,可能遇到的危險因素會大大增加,應異常注意安全。
(1)穿越馬路,要聽從交通民警的指揮;要遵守交通規則,做到“綠燈行,紅燈停”。
(2)穿越馬路,要走人行橫道線;在有過街天橋和過街地道的路段,應自覺走過街天橋和地下通道。
(3)穿越馬路時,要走直線,不可迂回穿行;在沒有人行橫道的路段,應先看左邊,再看右邊,在確認沒有機動車經過時才能夠穿越馬路。
(4)不要翻越道路中央的安全護欄和隔離墩。
(5)不要突然橫穿馬路,異常是馬路對面有熟人、朋友呼喚,或者自我要乘坐的公共汽車已經進站,千萬不能貿然行事,以免發生意外。
4、乘車人必須遵守下列規定:
汽車、電車等機動車,是人們最常用的交通工具,為保證乘坐安全,應注意以下各點:
(1)乘坐公共汽(電)車,要排隊候車,按先后順序上車,不要擁擠。上下車均應等車停穩以后,先下后上,不要爭搶。
(2)不要把爆竹等易燃易爆的危險品帶入車內。
(3)乘車時不要把頭、手、胳膊伸出手窗外,以免被對面來車或路邊樹木等刮傷;也不要向車窗外亂扔雜物,以免傷及他人。
(4)乘車時要坐穩扶好,沒有座位時,要雙腳自然分開,側向站立,手應握緊扶手,以免車輛緊急剎車時摔倒受傷。
(5)乘坐小轎車、微型客車時,在前排乘坐時應系好安全帶。
(6)盡量避免乘坐卡車、拖拉機;必須乘坐時,千萬不要站立在后車廂里或坐在車廂板上。
(7)不要在機動車道上招呼出租汽車。
5、騎自行車要注意哪些安全事項:
騎自行車外出比起走路,不安全的因素增加了,需要注意的安全事項如下:
(1)要經常檢修自行車,堅持車況完好。車閘、車鈴是否靈敏、正常,尤其重要。
(2)自行車的車型大小要適宜,不要騎兒童玩具車上街。也不要人小騎大型車。
(3)不要在馬路上學騎自行車;未滿十二歲的兒童,不要騎自行車上街。
(4)騎自行車要在非機動車道上靠右邊行駛,不逆行;轉彎時不搶行猛拐,要提前減慢速度,看清四周情景,以明確的手勢示意后再轉彎。
(5)經過交叉路口,要減速慢行、注意來往的行人、車輛;不闖紅燈,遇到紅燈要停車等候,待綠燈亮了再繼續前行。
(6)騎車時不要雙手撒把,不多人并騎,不互相攀扶,不互相追逐、打鬧。
(7)騎車時不攀扶機動車輛,不載過重的東西,不騎車帶人,不在騎車時戴耳機聽廣播。
(8)學習、掌握基本的交通規則知識。
三、燃放煙花鞭炮安全
1、應當購買有正規廠家生產的煙花爆竹,正規廠家是經過國家安全監管部門嚴格審查的,生產工藝和生產流程均貼合安全的標準,所以這些煙花爆竹在燃放的時候就能夠相比較較安全一點,千萬不要隨便購買那些沒有生產廠家的煙花爆竹,這些煙花爆竹雖然價格便宜,可是沒有安全保證,在燃放的時候很容易造成危險事故的發生。
第一條為貫徹落實《中華人民共和國科學技術普及法》,保證《全民科學素質行動計劃綱要》順利實施,夯實建設創新型城市的社會基礎,切實提高財政資金的使用效益,支持和促進全市科普事業的發展。根據《科學事業單位財務制度》和《江蘇省科學技術普及條例》的有關規定,特制定本辦法。
第二條市級科普專項經費是市財政為加強科普事業宏觀指導和建設,按照省、市委有關文件要求安排的專項經費,由市財政局和市科學技術協會共同管理。
第二章使用范圍
第三條市級科普專項經費主要用于市本級科普項目建設的引導推動和科普業務活動費用,以及科普工作的表彰獎勵。具體使用范圍如下:
(一)青少年科普:主要指圍繞未成年人“學科學、愛科學”的各類科技競賽和科普活動、各類青少年科技場館(室)建設引導、市級科技特色學校建設和科技輔導員業務培訓等。
(二)城鎮勞動人口科普:主要指圍繞街道、社區科普創建引導、科教進社區(軍營、企業、工地)及其它大型城市科普活動;圍繞企業技術進步和職工技能培訓、基層科協與市級學會干部及科技工作者開展的科普教育等活動。
(三)領導干部和公務員科普:主要指圍繞提高領導干部和公務員的科學素質,著力提高其科學決策和科學管理的能力,在機關黨政領導干部和公務員中開展科技素質培訓和科普教育等活動。
(四)農民科普:主要指圍繞社會主義新農村建設和興農富民,向廣大農民普及農業科技知識,推廣先進實用技術,宣傳科學思想,抵制封建迷信。引導和鼓勵建立各類農村科普示范基地、“一站一員一欄”等平臺建設,發揮農村致富帶頭人和農業專家庫的作用,開展各類“科技三下鄉”活動。
(五)科技社團科普:主要指蘇州市科學技術協會所屬市級學會、協會、研究會、高校和科研院所科協、企業科協開展的具有創新特點的各項科普宣傳、科普教育、科普創作、科普研討、科普論壇、科技推廣等活動。
(六)重大科普宣傳活動:主要指圍繞黨委政府中心工作,每年由市政府及中國科協組織的科普宣傳周、全國科普日等專項活動。
(七)科普資源開發與共享:主要指科普影視拍攝、科普活動多媒體、科普展板制作、科普刊物出版及科普資料編制印刷等;重點扶持資助原創性和選題優秀的科普作品,鼓勵、引導社會力量參與科普作品的創作開發。
(八)科普基礎設施建設和維護:小型科普場館建設的引導資金投入;科普畫廊和科普網站的建設,大型科普設施建設方案的調研活動;科普設施的維護管理。
(九)大眾傳媒的利用:主要指在電臺、電視臺、報刊等新聞媒體上開辟科普專欄和專版;租用戶外大型電子屏幕進行科普宣傳的項目。
(十)圍繞全市科普工作目標,由各區承辦的對全市產生直接影響和有示范作用的活動,以及由各區作為投資主體且具有典型推廣意義的項目,給予一定的補貼。
(十一)優秀活動項目的評比:鼓勵各項科普活動在形式、內容、效果上不斷創新,對在活動中積極創新,成績顯著的單位和個人等給予表彰。
(十二)經市財政局、市科協批準的其它科普項目支出。
第三章項目審定及預算審批
第四條市級科普專項經費實行預、決算制度。
第五條市級科普專項經費的支出預算由市科協根據全市科普發展計劃及省、市當年工作部署,提出初步安排意見,并會同市財政局確定重點科普項目計劃,納入市科協年度部門預算。
第六條市科協根據部門預算提出市級科普專項經費安排計劃報市財政局。市財政局審核后,下達市級年度科普專項經費的補助項目和補助額。
第四章管理與監督
第八條市級科普專項經費項目實行“專項核算,專款專用、提高效益”的管理辦法。
第九條市財政局和市科協負責市級科普專項經費的財務管理。市財政局、市科協將組織力量對市級科普專項經費使用情況進行定期或不定期的抽查并進行監督評估。年終市科協將市級科普專項經費決算及使用情況按績效考核的要求書面報市財政局。
第十條科普項目一經確定,不得隨意變更。如遇特殊情況確需調整或變動項目計劃的,由市科協報經市財政局審核后方可調整或變動。
第十一條市級科普項目實行項目經費責任制度,預算確定的項目須簽訂《蘇州市財政撥款項目責任書》后,按責任書規定的金額、用途和進度撥款。需要政府采購的要嚴格按照政府采購有關規定執行。如有發生違反責任書規定的行為,市財政局將停止撥款、收回補助經費,并追究有關人員和單位負責人的責任。
第五章附則
第十二條本辦法由市財政局和市科協負責解釋。
關鍵詞:數據管護 數據管理 研究數據 知識圖譜
分類號:G250
引用格式:虞晨琳. 國際數據管護的科學知識圖譜研究[J/OL]. 知識管理論壇, 2017, 2(3): 201-213[引用日期]. http:///p/1/137/.
1 引言
隨著E-Science的發展,科研行為的主要特征是基于數據的科學探索,研究數據是科研活動的驅動力,科學研究已步入以數據密集型為特征的大數據科研范式[1]。大數據時代,研究數據的內涵與特點發生改變,其來源范圍廣、類型多樣、數據體量巨大以及數據流實時變化,被稱之為科學大數據[2]。因此,以往的數據管理模式因不能適應研究數據的管理,而使得研究數據易遭到損壞與污染,數據不能得到有效利用和長久保存,影響現階段的科學研究行為的進行。各領域學者基于自身學術背景對研究數據管護(data curtain, DC)進行了理論研究與實踐探索。筆者將對國際學術界的數據管護研究進行梳理,以期整體、全面地認識與把握數據管護研究的整體面貌。
2 數據管護定義
英國數據管護中心(Digital Curation Centre, DCC)對數據管護進行明確定義:數據管護是指貫穿數字化研究數據整個生命周期的維護、保存和增值的動態主動的管理活動;對研究數據進行主動的管理,其目的是為了確保數據在未來研究價值的威脅、降低數字老化的風險;置于可信的數字化存儲庫中的管護數據,可促進英國研究領域的數據共享;數據管護可減少數據創建的重復工作,并通過增強高質量研究的可用性來提高數據的長期價值[3]。聯合信息系統委員會(Joint Information Systems Committee, JISC)指出, 數據管護是在數字數據和研究成果的整個生命周期內, 維護和利用它們以服務當前和未來的用戶的一系列活動[4]。
從檔案視角解讀,認為數據管護是將數字保存、數字圖書館管理、數字歸檔和數據管理階段性介入活動進行融合成一個整體;數據管護實質是貫穿整個數據生命周期的管護活動,數據管護術語的產生,由于數字歸檔的含義在信息資源保存領域的濫用,使得數字歸檔的含義遭到曲解,使得數字資源的長期、全過程管理的研究需要創建新的術語來準確描述數字資源的生命周期管理的研究[5]。
美國伊利諾伊大學圖書館與信息科學學院提出數據管護是在學術研究、科學和教育活動中主動、持續地貫穿數據生命周期的數據管理活動,通過數據認證、歸檔、管理、保存和描述來促進數據的檢索發現、長期保存和增值重用[6]。
綜上所述,數據管護具有以下特點: ①數據管護是一種主動、持續和不間斷的數據管理,貫穿整個研究數據的生命周期,確保研究數據管理過程是一條可追溯的連續鏈條; ②數據管護目的是維護和增值研究數據的價值,確保數據的真實可靠和長期可用,滿足現在和未來的使用需求;③數據管護促進研究數據資源的檢索與發現、共享與利用、減少科研資源的重復建設。
3 研究結果分析
3.1 數據與方法
為全面把握國際數據管護研究情況,避免遺漏重要文獻,本文所選取的統計數據來源于Web of Science (WOS)核心合集數據庫,以 “digital curation” “data curation” 為主題或標題進行檢索,時間跨度:1900-2016年,文獻類型:包括“article,editorial,letter,proceeding paper,review”5類,檢索時間為2016年10月31日,并對檢索結果進行去重、清洗,最終得到319條文獻記錄。
國外數據管護研究的文獻增長趨勢符合普賴斯提出的科學文獻指數增長的普遍規律,擬合優度R2為0.974(見圖1)。國外數據管護研究始于2000年,2000-2005年間的發文量少,發展極為緩慢,研究處于起步階段;2006-2013年間的年發文量呈現增長態勢,實際發文量都超過理論值,研究處于快速增長期;2013年之后,實際發文量小于理論值,且兩者之間的差距逐年拉大,研究步入成熟期。數據管護的年發文量呈絕對值持續增長趨勢,自2013年起,每年發文量均在40篇以上,2015年達到62篇。
本文所選取的研究方法是科學知識圖譜,科學知識圖譜是將信息可視化技術、應用數學、圖形學、計算機科學等與科學計量學結合起來的交叉科學研究方法,可將科學前沿領域的海量文獻數據信息轉換為可視化圖像,展示單憑個人經驗難以直觀獲得的學科前沿領域的總體圖景、發展態勢與結構特征。具體分析方法是基于共現分析法來明確國外數據管護的研究主體;利用共被引分析展現國外數管護的知識基礎。
3.2 數據管護的研究主體
利用CiteSpace軟件共現圖譜分析法,從學科分布、研究機構、作者分析3個維度對施引文獻進行分析,以探求數據管護的研究主體。
3.2.1 學科分布分析科學知識圖譜
如圖2所示,計算機科學與圖書情報學的節點年輪較大,表明學科的發文數量多;節點年輪顏色由藍、綠、黃組成,暗示研究跨3個時間段,長期時間關注且持續性研究。生物化學研究方法、天文與天體物理、計算機科學、成像科學與照相技術、統計與概率、地理學、生物化學與分子生物、遙感、基因與遺傳學等學科的節點被紫圈標注出來,代表節點具有較大的中心度(不小于0.1),處于在網絡結構中重要的中心位置,在研究中具有重要影響力。
從學科分布來看,數據管護研究具有多學科性,應用學科和基礎學科均關注數據管護方面問題,積極開展相應的研究工作,產生這種現象的原因主要為:①研究數據主要由具體的基礎學科產生。研究數據來源于科學研究的觀測、探測、調查和綜合分析所獲得的數值型的事實記錄,隨著21世紀的信息技術革命,新一代科學研究的手段與方式的應用,促使研究數據的生產方式步入自動式化感知式系統階段。研究數據具有學科背景屬性,基礎學科多圍繞學科的特定項目開展數據管護研究,以滿足自身學科知識體系對研究數據的管護的特定需要。②不同學科的研究數據在管理與服務具有共同屬性。應用學科夯實了數字化科研的基礎以及統一了研究數據的技術標準,這些稱為了數據管護中的網絡基礎設施的依托、信息技術的支撐、政策指導與管護理論的提供了強有力的支持。
計算機科學在數據管護的研究方向主要是人工智能、信息系統、跨學科應用、軟件工程與理論方法,從全方面對數據管護研究進行技術支持,其研究始于2001年。生命科學與生物醫學對數據管護研究力度與重視程度不亞于計算機科學,隨著新一代測序工具與技術出現,基因研究產生海量的基因數據,因此,生命科學與生物醫學對于基因數據管理需求增大,需要確保基因數據的及時更新、實時維護、關聯和集成資源、長期保存與有效獲取等,驅動科學研究的新發現。圖書情報學的發文數高達84篇,科學體量較大,學術影響力較強,是推動數據管護研究進展的主力軍之一。
3.2.2 研究機構分析
由圖3可見,北卡羅來納大學教堂山分校、愛丁堡大學、普渡大學、格拉斯哥大學、約翰?霍普金斯大學、南佛羅里達大學以及圣迭戈加利福尼亞大學在數據管護研究上比較活躍。
突現是指變量值在短時間內發生很大變化,突現信息是一種可用來度量更深層變化的手段,對機構突現的研究,能夠把握機構在數據管護研究上的關鍵轉變節點。北卡羅來納大學教堂山分校2007年共有4篇關于數據管護的文獻,主要為數據管護的人才培養和軟件工具研發的研究。其圖書館與信息科學學院承擔的數據管護課程(Digital Curation Curriculum,DigCCurr )項目,包括培育數據管護的研究生層次專業人才,探索數據管護課程設置[7];界定數據管護人才以及數據管護應具備技能與知識[8]。The Vidarch Project1項目捕獲數據資源的相關信息,基于數據資源的元數據和上下文本信息關系,實現數據資源的全面注釋[9];研發ContextMiner 2工具,幫助數據管護人在數據庫中進行數據查詢、編譯及存儲[10]。愛丁堡大學2004-2007年共有4篇關于數據管護的文獻。面對生物數據爆發式增長,P. Buneman倡議對數據庫進行管護,確保數據的安全可靠[11];P. Buneman同時闡釋數據管護的兩種不同的文化,檔案專家、管護者側重對數據資源的長期保存與可靠訪問,研究者側重數據資源的可視化、注釋與關聯[12];C. Rusbridge等認為DCC成立將更好地指導數據管護活動的開展[13];M. McGinley呼吁將數據管護納入法律層面,以此將有效地指導研究數據的開放或保密[14]。普渡大學在2008年發表2篇關于數據管護文獻。普渡大學圖書館在圖書館學和檔案學原理的指導下,利用分布式機構知識庫設施基礎,開展具體學科的研究數據管理的探索,為數據管護研究提供實踐案例[15];M. Y. Eltabakh研發生物數據庫的可擴展數據庫引擎,支持研究者對生物數據庫系統進行統一的數據管理,如數據及派生信息的注釋、存儲、數據查詢和跟蹤等,促進普渡大學的研究數據管理[16]。
3.2.3 作者分析
如圖4所示, 節點年輪的顏色變化反映了研究者的活躍時段,筆者依據圖譜的時間分區的顏色變化,將數據管護研究領域的主要研究者分為三代研究者,以2006年和2012年作為時間分區的分界點。
第一代研究者的節點以藍色為主,隨著科研信息化的展開,研究者對研究數據管護的需求不斷增加。P. Buneman團隊倡議及闡述數據管護以及數據管護中心成立的意義;P. Martin團隊研發基因數據庫的集成分析工具,支持數據集成化研究。第二代研究者的節點以綠色為主,主要是圖情及計算機領域圍繞研究數據管護展開的研究活動。C. Prom團隊從數據管護教育角度,主持開展數據管護課程(DigCCurr)和數據管護差距彌補課程(Closingthe Digital Curation Gap)以儲備數據管護的專業人才; L. Martinez-Uribe團隊研究圖書館在數據管護的角色定位、服務創新;S. Ross團隊研發文本流派分類方法自動獲取元數據。第三代研究者的節點以黃色為主,研究主要是針對特定學科開展的細粒度的數據管護活動,?. Sánchez-Ferrer團隊基于生物基因需求,提出數據管護的具體要求;W. Los團隊建立數據管護以此來推進數據資源共享開放;C. Jandrasits團隊從納米領域提出數據管護的重要性;B. Stvilia團隊從基因領域出發,研究數據管護以及數據質量要求;J. Bhate團隊介紹國際分子交換聯盟中心(IMEx Central)實施交互質量控制、交叉管護等數據管護措施。
3.3 數據管護研究的知識基礎
由圖5可知,文獻共被引網絡主要為8個聚類。基于被引文I和施引文獻、聚類標簽對各類的研究內容和核心觀點進行解讀,發現研究內容大致可分為數據管護對科研活動的新價值、數據管護的軟硬件設施的建設、數據管護在具體學科的應用、數據管護的利益相關者以及圖書館的服務模式幾方面。
3.3.1 數據管護對科研活動的新價值
表1列出聚類3#scientific data的被引文獻和施引文獻,闡釋科學數據對科研活動的新價值,這些文獻主要研究了如何使用數據管護實現對數據的維護和增值,涉及到科研工作流程、數據共享及出版的管理。科學研究具有數據驅動性和開放協作性,數據共享可以支持科學研究的再現或驗證,確保研究結果為公眾所用,方便其他人利用現有數據開展新研究,提升研究創新水平[17]。
科學界對小研究數據潛在價值的認識加 深[18],P. Borgman以棲息地生態學為例,介紹了數字圖書館利用嵌入式網絡感知中心,來支持“小科學”學科的數據管理,以便解決小研究數據向于異質、個人管理的狀態或是未被保存、未被管理的狀態[47]。盡管海量研究數據產生,使得數據洪流現象出現,但只有少數領域出現數據共享,C. Tenopir等2011年對1 329名科學家進行數據共享實踐與理論調研,發現阻礙科學家進行數據共享首要原因是時間不足和資金缺乏,其次是開放平臺、標準規范、政策制定等[19]。M. H. Cragin等承擔的Data Curation Profiles項目是基于研究者角度對數據共享問題進行研究,從分享什么數據、何時和與誰分享的3個維度分析研究者數據共享行為[20];P. Borgman分析什么數據應該被共享、被誰共享、在什么條件下共享、為什么共享以及要做什么努力等方面,能幫助認識數據共享;以上研究為數據政策制定和數據實踐開展提供了指導[17]。
M.J. Costello提出以數據出版代替數據共享,構建數據的引用與訪問系統,激勵環境、生物學科學家研究數據,解決數據可用性問題[21]。R. R. Downs和R. S. Chen.設計跨學科數據提交的工作流,便于滿足跨領域研究的科研人員提交數據的需求[22]。
3.3.2 數據管護的軟硬件設施建設
數據管護的軟硬件設施建設包括支撐數據管護的平臺的基礎設施,支持數據集成和關聯的軟件技術。表2列出聚類2#biologist-centricsoftware的被引文獻和施引文獻是面向數據管護的基礎設施的建設研究,這些文獻主要是探討支撐管護軟件研發和平臺構建、服務體系建設以及最佳實踐探索。
開源數字倉儲軟件(Fedora)描述數字對象及之間的復雜關系,為組織機構在管理及保存數字資源方面提供基礎[23]。iRODS(integrated Rule-Oriented Data System)的數據網格幫助用戶高效、簡易管理各類數據資源[24]。英國圖書館與信息網絡辦公室總結數據管護的服務框架,鑒定關鍵利益主體,分析其責任、權利與協作方式,確定數據管理的目標(數據的保存、訪問和重用),確定實現目標的機制、流程和實踐[25]。普渡大學圖書館在e-Science環境下,構建面向科研的嵌入式服務的協同結構,開展研究數據管理服務,包括數據描述、類型和格式的標準、收集、組織、歸檔與保存[26];科羅拉多大學博爾德分校圖書館參與領域科學的數據管護的過程,表明圖書館在專業人才、基礎設施與信息服務的優勢將有助于開展數據管護活動[27]。以上圖書館的探索成為數據管護的最佳實踐。
表3列出聚類6#annotation的被引文獻和施引文獻是基于數據集成和關聯的數據管護,通過構建大規模知識化的科學數據網絡,便于研究者深入挖掘和有效解釋科研數據中各類資源對象的內涵和關系。
基因芯片數據協會組織開發了微陣列數據標準,規范了微陣列實驗解釋的最小信息描述[28],促進國際上基因組學的實驗室及公共數據庫的數據交流。C. A. Ball評述微陣列數據標準,規范了微陣列實驗數據的注釋描述和交換標準,輔助微陣列數據庫的建設和數據分析工具的開發,促使高質量的基因表達數據的共享,為基因研究的標準化鋪平道路[29]。S. A. Sansone提出以技術手段和獎勵機制促進生物數據的互操作性,以提高科學社群對研究數據的充分利用和開放共享[30]。D. Howe認為生物研究數據管理和生物學數據管理的出現,解決不斷增長的高質量數據需求與有限、落后的數據管理之間的矛盾[31]。B. M. Good等通過語義維基構建生物醫學的語義網鏈接,直接嵌入維基百科編輯器來計算文章上下文的語義關系,增強維基百科文章的語義呈現,便于用戶查詢與發現[32]。
3.3.3 數據管護在具體學科的應用
數據管護在生物學科、化學信息學與生物信息學方面得到充分運用。表4列出聚類0#database的被引文獻和施引文獻是數據管護在生物學科的具體應用,這些文獻主要是基于領域本體與元數據的數據描述的管護活動,為生物數據的描述和分類實現格式化,為計算機處理創造可能。
隨著新一代基因測序技術的快速發展,使得基因組和轉錄組開始進入高通量測序,實驗室和基因數據庫得到海量核序列數,但是對核序列數的描述和保存格式不統一,嚴重阻礙了學術交流與資源共享。基因本體的出現,統一了規范基因功能注釋和描述[33];生命研究數據庫采用基因本體來對研究數據進行標注,通用蛋白質資源數據庫(UniProt)為科學社群提供集成、高質量、可獲取的蛋白質資源數據[34],PlasmoDB數據庫通過瘧原蟲基因注釋標準化,關聯基因組定位、轉錄本信息等各種信息,方便瘧疾研究者查詢[35]。數據的描述、注釋以及保存格式的規范,有助于研究的新發現,通過統一基因本體術語,便于集成高質量的數據資源,便于發現基因之間的相互作用的證據[36]。
表5列出聚類1#QSARmodeling的被引文獻和施引文獻是數據管護在化學信息學的具體應用,這些文獻主要是圍繞研究數據建模過程的管護活動,依據數學原理,探索數據之間的關系,提取信息及發現知識等。定量構效關系(quantitative structure activity relationship,QSAR)作為化學信息學的主要研究方法,是對化合物結構與其活性之間關系的定量描述研究[37]。
建立研究數據的匯聚機制與模型,如集成計算毒理學資源(Aggregated Computational Toxicology Resource, ACToR)、京都基因和基因組學百科全書(Kyoto Encyclopedia of Genesand Genomes, KEGG)和基因型―表現型數據庫(Genotype-phenotype databases),以解決數據的多源、異構帶來的數據使用效率低的難題。科研信息化的推進,數據驅動科學研究的發展,數據質量直接決定研究的成敗。化學數據建模分析過程采用標準規范[38],劃定分析階段,來確保QSAR模型分析結果的有效性[39]。面對預測毒理學的數據的來源涉及學科廣、數據的表示靈活多樣,F. Xin認為數據管護能確保預測毒理學的計算基礎的數據高質量,推進學科發展[40]。A. J. Williams和S.EKINS倡議化學數據庫采用數據管護,來保障數據質量,推動科研進展[41]。
表6列出聚類5#bioinformatics的被引文獻和施引文獻是數據管護在生物信息學的具體應用,這些文獻論證了數據管護是如何支持生物信息學的研究新模式。J. Bellenson指出,微陣列芯片技術在鑒定致癌物質與環境危害的應用,促使毒理學研究的范式由假設驅動的研究轉向數據驅動的實驗[42],數據對科研的重要性日益顯著。W. Tong等指出arraytrack具有集合毒理學的數據存儲、分析和可視化的功能,支持毒物學研究的進展與新發現[43]。
3.3.4 數據管護的利益相關者以及圖書館的服務模式
表7列出聚類4#digitalcuration的被引文獻和施引文獻確定了數據管護的利益相關者,這些文獻主是圍繞數據管護利益相關者展開的角色定位、職責劃定和相互協作研究。
美國國家科學委員會(National Science Board,NSB)《21世界長期數字數據集合研究與教育》,明確了管理層面對長期數字數據集合管理的重視,開展數據管理研究以及教育培訓,以支撐2000年以后的科學研究。基于數據在不同階段的管理要求,提出不同機構、部門的數據服務角色定位,以實現數據管理服務角色的協作,實現數據管理服務的目標[44]。圖書館作為信息資源管理的參與者,拓展和延伸數據服務,定位管理角色與職責,研究技術標準和數據生命周期理論等,以期在研究數據管理乃至科學研究中發揮重要作用。H. R. Tibbo納緇崢蒲Ы嵌榷壬笫郵據管護,盡管數據管護的發展離不開計算機技術的支撐,但社會科學對數據資產的長期管護更具有指導[45]。
表8列出聚類7#science的被引文獻和施引文獻描述了科研新模式下圖書館的探索,這些文獻主要是描述了圖書館的數據管護服務模式。L.Lyon指出,隨著“信息轉變”,圖書館需要審視在數據驅動科研環境下的機構目標和服務范圍[46]。P. Hswe和P Hswe從學術圖書館在人員配置、基礎設施及服務定位角度,論述圖書館參與數據管理的必要性和參與模式,指出圖書館將出現新的職業角色來滿足數據管理的需要[47]。G. S. Choudhury針對約翰霍普金斯大學已有的機構庫等基礎設施開展數據管護服務,強調數據科學家和數據人文專家等新角色在數據管護中發揮的作用,能全面支持高校研究數據管理[48]。L. M.Delserone論述了明尼蘇達大學圖書館與機構庫、信息部門等協同合作,共同規劃建設學校的數據管護的基礎設施;同時圖書館配置專業人才隊伍,滿足圖書館開展數據管理與服務的要求,建設“科學館員隊伍”[49]。L. Lyon基于Research360的機構研究生命周期模型,總結圖書館開展數據管護服務的10個階段,包括數據管理要求、計劃、信息學基礎、引用、培訓、許可、鑒定、存儲、獲取、影響[46]。
4 結語
隨著21世紀的信息技術革命,科學研究范式向數據密集型轉變,共同推動數據管護研究的興起。對國際的數據管護研究的分析和解讀表明,研究主體具有多學科性,其中,生命科學與生物醫學基于自身學科知識體系,圍繞特定項目進行數據管護的研究;計算機與圖情等應用學科則基于研究數據的通性,研究通用的研究數據的基礎設施與技術標準規范。研究主體的機構主要集中在歐美,其中北卡羅來納大學教堂山分校、愛丁堡大學和普渡大學在數據管護領域比較活躍,具有很大影響力。相較國外,中國對數據管護的研究相對薄弱,武漢大學信息管理學院在國際數據管護的專業人才培養上開展深入調研與分析,具有較強的影響力。研究主體的學者合作不夠緊密,缺少穩定的、高質量的研究團隊。數據管護的知識基礎集中于數據管護對科研活動的新價值、數據管護的軟硬件設施的建設、數據管護在具體學科的應用、數據管護的利益相關者以及圖書館的服務模式。基于上述對國際數據管護研究的英文文獻的梳理,望能為國內開展數據管護研究帶來啟示與借鑒。
參考文獻:
[1] 吳金紅, 陳勇躍, 胡慕海. e-Science 環境下科學數據監管中的質量控制模型研究 [J]. 情報學報, 2016, 35(3): 237-45.
[2] 郭華東, 王力哲, 陳方, 等. 科學大數據與數字地球 [J]. 科學通報, 2014 (12): 1047-1054.
[3] What is digital curation [EB/OL]. [2017-04-10]. http://dcc.ac.uk/digital-curation/what-digital-curation.
[4] BEAGRIE N, POTHEN P. Digital curation: digital archives, libraries and e-Science seminar [EB/OL]. [2017-04-10].http://ariadne.ac.uk/issue30/digital-curation/.
[5] CUNNINGHAM A. Digital curation/digital archiving: a view from the National Archives of Australia [J]. The American archivist, 2008, 71(2): 530-573.
[6] MURAKAMI Y. Metal fatigue: effects of small defects and nonmetallic inclusions [M]. Amsterdam: Elsevier, 2002.
[7] LEE C A, TIBBO H R, SCHAEFER J C. DigCCurr: Building an International Digital Curation Curriculum & the Carolina Digital Curation Fellowship Program[EB/OL]. [2017-04-10]. http:///content/ist/ac/2007/00002007/00000001/art00025.
[8] LEE C A, TIBBO H R, SCHAEFER J C. Defining what digital curators do and what they need to know: the DigCCurr project[EB/OL]. [2017-04-10]. http:///citation.cfm?id=1255183.
[9] Shah C, Marchionini G. Capturing relevant information for digital curation[EB/OL]. [2017-04-10]. https://ils.unc.edu/vidarch/Shah-JCDL2007poster.pdf.
[10] SHAH C, MARCHIONINI G. ContextMiner: A tool for digital library curators[EB/OL]. [2017-04-10]. https://ils.unc.edu/vidarch/Shah-JCDL2007demo.pdf.
[11] BUNEMAN P, CHENEY J, TAN W C, et al. Curated databases[EB/OL]. [2017-04-10]. http:///citation.cfm?id=1376918.
[12] BUNEMAN P. The Two Cultures of Digital Curation[EB/OL]. [2017-04-10]. http://inf.ed.ac.uk/teaching/courses/ad/lectures04/buneman.pdf.
[13] RUSBRIDGE C, BURNHILL P, ROSS S, et al. The digital curation centre: a vision for digital curation[EB/OL]. [2017-04-10]. http:///abstract/document/1612461/.
[14] MCGINLEY M. The legal environment of digital curationCa question of balance for the digital librarian[EB/OL]. [2017-04-10]. https:///chapter/ 10.1007%2F978-3-540-74851-9_62?LI=true.
[15] WITT M. Institutional repositories and research data curation in a distributed environment [J]. Library trends, 2008, 57(2): 191-201.
[16] ELTABAKH M Y, OUZZANI M, AREF W G, et al. Managing biological data using bdbms[EB/OL]. [2017-04-10]. http:///abstract/document/ 4497631/.
[17] BORGMAN C L. The conundrum of sharing research data[J]. Journal of the American Society for Information Science and Technology, 2012, 63(6): 1059-1078.
[18] BORGMAN C L, WALLIS J C, ENYEDY N. Little science confronts the data deluge: habitat ecology, embedded sensor networks, and digital libraries [J]. International journal on digital dibraries, 2007, 7(1/2): 17-30.
[19] TENOPIR C, ALLARD S, DOUGLASS K, et al. Data sharing by scientists: practices and perceptions [J]. PloS one, 2011, 6(6): e21101.
[20] CRAGIN M H, PALMER C L, CARLSON J R, et al. Data sharing, small science and institutional repositories[J]. Philosophical transactions of the Royal Society of London A: mathematical, physical and engineering sciences, 2010, 368(1926): 4023-4038.
[21] COSTELLO M J. Motivating online publication of data [J]. BioScience, 2009, 59(5): 418-427.
[22] DOWNS R R, CHEN R S. Designing submission and workflow services for preserving interdisciplinary scientific data[J]. Earth science informatics, 2010, 3(1/2): 101-110.
[23] LAGOZE C, PAYETTE S, SHIN E, et al. Fedora: an architecture for complex objects and their relationships[J]. International journal on digital libraries, 2006, 6(2): 124-138.
[24] HEDGES M, HASAN A, BLANKE T. Curation and preservation of research data in an iRODS data grid [EB/OL]. [2017-04-10]. http:///abstract/document/4426919/.
[25] LYON L. Dealing with data: roles, rights, responsibilities and relationships. consultancy report[EB/OL]. [2017-04-10]. http://opus.bath.ac.uk/412/.
[26] BRANDT D S. Librarians as partners in e-research Purdue University Libraries promote collaboration[J]. College & research libraries news, 2007, 68(6): 365-396.
[27] LAGE K, LOSOFF B, MANESS J. Receptivity to library involvement in scientific data curation: a case study at the University of Colorado Boulder[J]. portal: libraries and the academy, 2011, 11(4): 915-937.
[28] BRAZMA A, HINGAMP P, QUACKENBUSH J, et al. Minimum information about a microarray experiment (MIAME)―toward standards for microarray data[J]. Nature genetics, 2001, 29(4): 365-371.
[29] BALL C A, SHERLOCK G, PARKINSON H, et al. Standards for microarray data[J]. Science, 2002, 298(5593): 539-539.
[30] SANSONE S-A, ROCCA-SERRA P, FIELD D, et al. Toward interoperable bioscience data[J]. Nature genetics, 2012, 44(2): 121-126.
[31] HOWE D, COSTANZO M, FEY P, et al. Big data: the future of biocuration [J]. Nature, 2008, 455(7209): 47-50.
[32] GOOD B M, CLARKE E L, LOGUERCIO S, et al. Building a biomedical semantic network in Wikipedia with Semantic Wiki Links[J]. Database, 2012, 2012: bar060.
[33] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: tool for the unification of biology [J]. Nature genetics, 2000, 25(1): 25-34.
[34] APWEILER R, BAIROCH A, WU C H, et al. UniProt: the universal protein knowledgebase [J]. Nucleic acids research, 2004, 32(S1): D115-D119.
[35] BAHL A, BRUNK B, CRABTREE J, et al. PlasmoDB: the Plasmodium genome resource. a database integrating experimental and computational data [J]. Nucleic acids research, 2003, 31(1): 212-215.
[36] GOERTSCHES R H, HECKER M, KOCZAN D, et al. Long-term genome-wide blood RNA expression profiles yield novel molecular response candidates for IFN-β-1b treatment in relapsing remitting MS [J]. Pharmacogenomics, 2010, 11(2): 147-161.
[37] 周喜斌, n文靜, 陳晶,等. 幾種 QSAR 建模方法在化學中的應用與研究進展 [J]. 計算機與應用化學, 2011, 28(6): 761-765.
[38] FOURCHES D, MURATOV E, TROPSHA A. Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research [J]. Journal of chemical information and modeling, 2010, 50(7): 1189-1204.
[39] TROPSHA A. Best practices for QSAR model development, validation, and exploitation [J]. Molecular informatics, 2010, 29(6/7): 476-488.
[40] FU X, WOJAK A, NEAGU D, et al. Data governance in predictive toxicology: a review[J]. Journal of cheminformatics, 2011, 3(1): 24.
[41] WILLIAMS A J, EKINS S. A quality alert and call for improved curation of public chemistry databases [J]. Drug discovery today, 2011, 16(17): 747-750.
[42] SCHENA M. DNA microarrays: a practical approach[M]. Oxford:Oxford University Press, 1999.
[43] TONG W, CAO X, HARRIS S, et al. ArrayTrack--supporting toxicogenomic research at the US Food and Drug Administration National Center for Toxicological Research [J]. Environmental health perspectives, 2003, 111(15): 1819.
[44] PRYOR G, DONNELLY M. Skilling up to do data: whose role, whose responsibility, whose career? [J]. International journal of digital curation, 2009, 4(2): 158-170.
[45] TIBBO H R. Placing the horse before the cart: conceptual and technical dimensions of digital curation [J]. Historical social research, 2012,37(3):187-200.
[46] LYON L. The informatics transform: re-engineering libraries for the data decade [J]. International journal of digital curation, 2012, 7(1): 126-138.
[47] HSWE P. Data management services in libraries [EB/OL]. [2017-04-10]. http:///doi/pdf/10.1021/bk-2012-1110.ch007.
[48] CHOUDHURY G S. Case study in data curation at Johns Hopkins University [J]. Library trends, 2008, 57(2): 211-220.
[49] DELSERONE L M. At the watershed: preparing for research data management and stewardship at the University of Minnesota Libraries [J]. Library trends, 2008, 57(2): 202-210.
Research on Mapping the Knowledge Domain of Digital Curation
――A Bibliometric Study of Web of Science (1990-2016)
Yu Chenlin1,2
1National Science Library, Chinese Academy of Sciences, Beijing 100190
2University of Chinese Academy of Sciences, Beijing 100049