前言:我們精心挑選了數篇優質生物信息學論文文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
一、正在出現的技術
Klingler(Lncytepharmaceuticals,PaloAlto,CA,USA)強調基因組學正推動制藥業進入信息時代。隨著不斷增加的序列、表達和作圖數據的產生,描述和開發這些數據的信息工具變得對實現基因組研究的任務至關重要。他談到了Incytepharmaceuticals對大規模基因組數據和生物信息學的貢獻。
Lipshutz(Affymetrix,Santaclara,CA,USA)描述了一種利用DNA探針陣列進行基因組研究的方法,其原理是通過更有效有作圖、表達檢測和多態性篩選方法,可以實現對人類基因組的測序。光介導的化學合成法被應用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設計的寡核苷酸探針陣列可用于多態性篩查、基因分型和表達檢測。然后這些陣列就可以直接用于并行DNA雜交分析,以獲得序列、表達和基因分型信息。Milosavljevic(CuraGen,Branford,CT,USA)介紹了一種新的基于專用定量表達分析方法的基因表達檢測系統,以及一種發現基因的系統GeneScape。為了有效地抽樣表達,特意制作片段模式以了解特定基因的子序列的發生和冗余程度。他在酵母差異基因表達的大規模研究中對該技術的性能進行了驗證,并論述了技術在基因的表達、生物學功能以及疾病的基礎研究中的應用。
二、基因的功能分析
Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)論述了人類基因組計劃的下一階段的任務——基因組水平的基因功能分析。這一階段產生的數據的分析、管理和可視性將毫無疑問地比第一階段更為復雜。他介紹了一種用于脊椎動物造血系統紅系發生的功能分析的原型系統E-poDB,它包括了用于集成數據資源的Kleisli系統和建立internet或intranet上視覺化工具的bioWidget圖形用戶界面。EpoDB有可能指導實驗人員發現不可能用傳統實驗方法得到的紅系發育的新的藥物靶,制藥業所感興趣的是全新的藥物靶,EpoDB提供了這樣一個機會,這可能是它最令人激動的地方。
Sali(Rockefelleruniversity,NewYork,NY,USA)討論了同源蛋白質結構模建。比較蛋白質模建(comparativeproteinmodeling)也稱為同源模建(homologymodeling),即利用實驗確定的蛋白質結構為模式(模型)來預測另一種具有相似氨基酸序列的蛋白質(靶)的構象。此方法現在已經具有了足夠的精確性,并且被認為效果良好,因為蛋白質序列的一個微小變化通常僅僅導致其三維結構的細微改變。
Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)討論了通過數據庫搜索來識別遠緣蛋白質的方法。對蛋白質超家族的結構和功能的相互依賴性的理解,要求了解自然所塑造的一個特定結構模板的隱含限制。蛋白質結構之間的最有趣的關系經常在分歧的序列中得以表現,因而區分得分低(low-scoring)但生物學關系顯著的序列與得分高而生物學關系較不顯著的序列是重要的。Babbit證明了通過使用BLAST檢索,可以在數據庫搜索所得的低得分區識別遠緣關系(distantrelationship)。Levitt(Stanforduniveersity,PaloAlto,CA,USA)討論了蛋白質結構預測和一種僅從序列數據對功能自動模建的方法。基因功能取決于基因編碼的蛋白質的三級結構,但數據庫中蛋白質序列的數目每18個月翻一番。為了確定這些序列的功能,結構必須確定。同源模建和從頭折疊(abinitiofolding)方法是兩種現有的互為補充的蛋白質結構預測方法;同源模建是通過片段匹配(segmentmatching)來完成的,計算機程棄SegMod就是基于同源模建方法的。
三、新的數據工具
Letovsky(JohnshopkinsUniversity,Baltimore,MD,USA)介紹了GDB數據庫,它由每條人類染色體的許多不同圖譜組成,包括細胞遺傳學、遺傳學、放射雜交和序列標簽位點(STS)的內容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區域的標志(markers),能夠搜索所有圖譜是有用的。為此目的,該數據庫使用了一種公用坐標系統(commoncoordinatesystem)來排列這些圖譜。數據庫還提供了一張高分辨率的和與其他圖譜共享許多標志的圖譜作為標準。共享標志的標之間的對應性容許同等于所有其它圖譜的標準圖譜的分配。
Markowitz(LawrenceberkeleyLaboratory,Berkeley,CA,USA)討論了分布式數據庫與局部管理的關系,以及用基于工具的方法開發分子生物學數據庫(MDBs)的問題。許多方案當前正在促進搜索多種不同來源MDBs的數據,包括建立數據倉庫;這要求對各種MDBs的組合有一種全局觀,并從成員MDBs中裝填數據入中心數據庫。這些方案的主要問題是開發整體視圖(globalviews),構建巨大的數據倉庫并使集成的數據庫與不斷發展中的成員MDBs同步化的復雜性。Markowitz還討論了對象協議模型(objectprotocolmodel,OPM),并介紹了支持以下用途的工具:建立用于文本文件或者關系MDBs的OPM視圖;將MDBs作成一個數據庫目錄,提供MDB名稱、定位、主題、獲取信息和MDB間鏈接等信息;說明、處理和解釋多數據庫查詢。Karp(SRIinternational,MenloPark,CA,USA)解釋了Ocelot,一種能滿足管理生物學信息需求的面向對象知識陳述系統(一種面向對象系統的人工智能版)。Ocelot支持略圖展開(schemaevolution)并采用一種新的最優化并行控制機制(同時進行多項訪問數據的過程),其略圖驅動圖形編輯器提供了交互式瀏覽和編輯功能,其注釋系統支持數據庫開發者之間的結構通訊。
Riley(MarinebiologicalLaboratory,WoodsHole,MA,USA)在討論大腸桿菌蛋白質的功能同時,特別提到了GPEC數據庫,它包括了由實驗確定的所有E.coli基因的功能的信息。該數據庫中最大比例的蛋白質是酶,其次則為轉運和調控蛋白。
Candlin(PEappliedBiosystems,FosterCity,CA,USA)介紹了一種新的存儲直接來自ABⅠPrismdNA測序儀的數據的關系數據庫系統BioLIMS。該系統可以與其它測序儀的數據集成,并可方便地與其它軟件包自動調用,為測序儀與序列數據的集成提供了一種開放的、可擴展的生物信息學平臺。
Glynais(NetGenics,Cleveland,OH,USA)認為生物信息學中最關鍵的問題之一是軟件工具和數據庫缺乏靈活性。但是,軟件技術的發展已得到了其它領域如金融業和制造業的發展經驗的借鑒,可以使來自不同軟件商的運行于各種硬件系統的軟件共同工作。這種系統的國際標準是CORBA,一種由250多個主要軟件和硬件公司共同合作開發的軟件體系。聯合使用CORBA和Java可以開發各種通過一個公用用戶界面訪問任何種類的數據或軟件工具的網絡應用軟件,也包括生物信息學應用軟件。Overton不同意Glynias的這種想法,他強調說CORBA僅對軟件集成有用,不兼容的數據庫軟件可能是計算生物學所面臨的最困難問題,一些制藥公司和數據庫倉庫最近資助了一項用OCRBA鏈接不同的數據庫的計劃[2,3]。
四、制藥先導的發現
Burgess(Sturcturalbioinformatics,SanDiego,CA,USA)討論了填補基因組學和藥物設計之間鴻溝的蛋白質結構中的計算問題。在缺乏主要疾病基因或藥物靶的精確描述數據的情況下,藥物設計者們不得不采用大規模表達蛋白質篩選方法;而結構生物信息學則采用一種更為實用有效的計算方法直接從序列數據中確定靶蛋白質的活性位點的精細結構特征,它利用一種集成專家系統從現實的或虛擬的化學文庫中進行迅速的計算篩選,可以達到一個很大的規模。
Elliston(Genelogic,Columbia,MD,USA)討論了治療藥物開發中發現新的分子靶的過程,著重討論了基因發現方法。他認為,隨著日益臨近的人類基因組測序的完成,幾乎全部基因的特征將在序列水平得到揭示。但是,對基因的認識將有賴于更多的信息而不僅僅是序列,需要考慮的第一類信息是轉錄表達水平信息,而Genelogic公司的GeneExpress就是一個由mRNA表達譜、轉錄因子位點、新基因和表達序列標簽組成的數據庫。
Liebman(Vysis,Downessgrove,IL,USA)介紹了Vysis公司開發的計算和實驗方法,這些主法不僅用于管理序列數據,而且被用于以下用途:分析臨床數據庫和自然—突變數據庫;開發新的算法以建立功能同源性(區別于序列同源性)模擬生物學通路以進行風險評估;藥物設計的靶評估;聯系復雜的通路特性以便識別副作用;開發疾病發展的定性模型并解釋臨床后果。
隨著發現的新基因的日益增多,這個問題顯得格外重要:基因的功能是什么?Escobedo(Chirontechnologies,Emeryville,CA,USA)提出了這個問題的一種方法:將分泌蛋白質的基因的功能克隆與篩選這些克隆(可能的藥物靶)結合起來。在這種方法中,在微粒體cDNA文庫池中進行體外翻譯避免了勞動密集的克隆、表達和純化步聚,對文庫池中的翻譯產物在細胞水平進行篩選,測試其在細胞增殖和分化中的作用。例如,在用這種方法識別的111個克隆中,56個屬于已知的分泌蛋白質,25個為膜相關蛋白,另外30個功能未知,可能是新的蛋白質。一種相似的方法在轉移到小鼠模型系統中的基因傳導載體中構建分泌蛋白質的cDNA文庫來克隆特定的功能基因。
Ffuchs(Glaxowellcome,ResearchTrianglePark,NC,USA)討論了生物信息學更為廣義的影響:它不僅影響到新藥物靶基的發現,還對改善藥物開發的臨床前期和臨床期的現狀極具重要性。眾所周知,涉汲數以千計病人的臨床試驗(可能是藥物開發最為花錢的部分)的設計不論多么仔細,也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發現新藥的效率。Fuchs介紹了一種將病人的基因型和表型標志結合起來以改善臨床前期和臨床期藥物開發過程的系統GeneticinformationSystem.他強調將遺傳學和生物信息學數據同化學、生物化學、藥理學和醫學數據連接起來的集成信息管理和分析方法是極其重要的。
Green(HumanGenomeSciences,Rockville,MD,USA)介紹了他的測序工作中采用的數據管理工具。基于EST的測序方法所面臨的挑戰是,在對幾百個cDNA克復測序之后,產生的數據堆積如山。由于大多數人類基因都是用這種方法發現并在么有數據庫中分類編排的,面臨的識別開放讀框、重疊序列的重疊圖譜、組織特異表達和低豐度mRNA基因的任務是令人生畏的。HumangenomeSciences公司開發了一些可用戶化數據庫工具,在同一個數據庫中可包括以下功能:WWW上訪問和檢索數據,序列拼接,臨視潛在藥物靶基因的研究進展等。這些能夠管理多項任務——從注釋基因序列到成功開發基因產物進入藥物發現的流程——的軟件工具,極其可望從一種基于基因組知識的藥物發現方法中得到新的藥物靶。
Summer-Smith(Base4bioinformatics,Mississauga,Ontario,Canada)描述了一種相關的策略。藥物發現階段中所要求的軟件工具的任務是多樣化的,要能注釋基因,并闡明它的生理和病理功能及其商業潛質。對這樣多種來源的信息的集成與分析,在派生的、項目取向的數據庫(project-specificdatabase,PSD)中可以很好完成。由于項目貫穿于發現到開發全過程,其間又不斷加入背景的成員,PSD在項目的管理與發展中成為一種關鍵性的資源。
按照Smith(Bostonuniversity,Boston,MA,USA)的觀點[2],我們并不需要更快捷的計算機或更多的計算機科學家,而是需要更的生物學家和生物化學家來解釋序列的功能。這對有些軟件或硬件專家來說是個打擊,但生物學系統的復雜性是令人生畏的,并且對基因功能的認識可能需要生物學方法和計算方法的結合。探索基因的功能很可能要花費生物學家們數十年的時間,本次會議表明沒有任何單一的方法可以得出一個答案;但是,將計算生物學同大規模篩先結合起來識別一種化學靶物(hit)是一種產生化學工具來探索基因功能的方法,這些化學工具接下來就可以用作理解基因功能的“探針”。這種方法在Butt(GeneTranscriptionTechnologies,Philadelphia,PA,USA)的描述中,既是一種檢查基因功能的簡單方法,也是為潛在的藥物靶發現化學先導物的簡單方法,他描述了一種可以在酵母中重建人類基因功能的酵母大規模篩選系統。在此系統中,可以迅捷地在一個化學文庫中發現配基。這種技術的重要特征是它不僅僅是發現一種藥物靶的配基的篩板(screen),相反,由于該系統的高速度,它也是發現先導靶基因的一種篩板。過去,世界上的制藥公司通常在某一時間內僅能對有限數目(約20多個)的藥物靶基因進行工作,鑒于此,我們需要根本不同的方法如基因組學來打開通向“新”生物學的通路。由于機器人和合成化學的進步,藥物發現中最關鍵的問題不再是得到一種先導化合物(leadcompound),而是得到導向靶基因。此次會議為從計算和實驗方法中發展出的新生物學邁出很好的一步。
參考文獻
1LimHA,BatttR.TIBTECH,1998;16(3)):104
關鍵詞:推薦系統;生物信息學
推薦系統(RecommenderSystem)[1]是個性化信息服務的主要技術之一,它實現的是“信息找人,按需服務”;通過對用戶信息需要、興趣愛好和訪問歷史等的收集分析,建立用戶模型,并將用戶模型應用于網上信息的過濾和排序,從而為用戶提供感興趣的資源和信息。生物信息學(Bioinformatics)[2,3]是由生物學、應用數學和計算機科學相互交叉所形成的一門新型學科;其實質是利用信息科學的方法和技術來解決生物學問題。20世紀末生物信息學迅速發展,在信息的數量和質量上都極大地豐富了生物科學的數據資源,而數據資源的急劇膨脹需要尋求一種科學而有力的工具來組織它們,基于生物信息學的二次數據庫[4]能比較好地規范生物數據的分類與組織,但是用戶無法從大量的生物數據中尋求自己感興趣的部分(著名的生物信息學網站NCBI(美國國立生物技術信息中心),僅僅是小孢子蟲(Microsporidia)的DNA序列就達3399種),因此在生物二次數據庫上建立個性化推薦系統,能使用戶快速找到自己感興趣的生物信息。特別是在當前生物信息數據量急劇增長的情況下,生物信息學推薦系統將發揮強大的優勢。
1推薦系統的工作流程
應用在不同領域的推薦系統,其體系結構也不完全相同。一般而言,推薦系統的工作流程[5]如圖1所示。
(1)信息獲取。推薦系統工作的基礎是用戶信息。用戶信息包括用戶輸入的關鍵詞、項目的有關屬性、用戶對項目的文本評價或等級評價及用戶的行為特征等,所有這些信息均可以作為形成推薦的依據。信息獲取有兩種類型[6],即顯式獲取(Explicit)和隱式獲取(Implicit),由于用戶的很多行為都能暗示用戶的喜好,因此隱式獲取信息的準確性比顯式高一些。
(2)信息處理。信息獲取階段所獲得的用戶信息,一般根據推薦技術的不同對信息進行相應的處理。用戶信息的存儲格式中用得最多的是基于數值的矩陣格式,最常用的是用m×n維的用戶—項目矩陣R來表示,矩陣中的每個元素Rij=第i個用戶對第j個項目的評價,可以當做數值處理,矩陣R被稱為用戶—項目矩陣。
(3)個性化推薦。根據形成推薦的方法的不同可以分為三種,即基于規則的系統、基于內容過濾的系統和協同過濾系統。基于規則的推薦系統和基于內容過濾的推薦系統均只能為用戶推薦過去喜歡的項目和相似的項目,并不能推薦用戶潛在感興趣的項目。而協同過濾系統能推薦出用戶近鄰所喜歡的項目,通過用戶與近鄰之間的“交流”,發現用戶潛在的興趣。因此本文所用的算法是基于協同過濾的推薦算法。
(4)推薦結果。顯示的任務是把推薦算法生成的推薦顯示給用戶,完成對用戶的推薦。目前最常用的推薦可視化方法是Top-N列表[7],按照從大到小順序把推薦分值最高的N個事物或者最權威的N條評價以列表的形式顯示給用戶。
2生物信息學推薦系統的設計
綜合各種推薦技術的性能與優缺點,本文構造的生物信息學推薦系統的總體結構如圖2所示。
生物信息學推薦系統實現的主要功能是在用戶登錄生物信息學網站時,所留下的登錄信息通過網站傳遞到推薦算法部分;推薦算法根據該用戶的用戶名從數據庫提取出推薦列表,并返回到網站的用戶界面;用戶訪問的記錄返回到數據庫,系統定時調用推薦算法,對數據庫中用戶訪問信息的數據進行分析計算,形成推薦列表。
本系統采用基于近鄰的協同過濾推薦算法,其結構可以進一步細化為如圖3所示。算法分為鄰居形成和推薦形成兩大部分,兩部分可以獨立進行。這是該推薦系統有別于其他系統的優勢之一。由于信息獲取后的用戶—項目矩陣維數較大,使得系統的可擴展性降低。本系統采用SVD矩陣降維方法,減少用戶—項目矩陣的維數,在計算用戶相似度時大大降低了運算的次數,提高了推薦算法的效率。
(1)信息獲取。用戶對項目的評價是基于用戶對某一個項目(為表示簡單,以下提及的項目均指網站上的生物物種)的點擊次數來衡量的。當一個用戶注冊并填寫好個人情況以后,系統會自動為該用戶創建一個“信息矩陣”,該矩陣保存了所有項目的ID號以及相應的用戶評價,保存的格式為:S+編號+用戶評價,S用于標記項目,每個項目編號及其評價都以“S”相隔開;編號是唯一的,占5位;用戶評價是用戶點擊該項目的次數,規定其范圍是0~100,系統設定當增加到100時不再變化。這樣做可防止形成矩陣時矩陣評價相差值過大而使推薦結果不準確。(2)信息處理。信息處理是將所有用戶的信息矩陣轉換為用戶—項目矩陣,使用戶信息矩陣數值化,假設系統中有M個用戶和N個項目,信息處理的目的就是創建一個M×N的矩陣R,R[I][J]代表用戶I對項目J的評價。
(3)矩陣處理。協同過濾技術的用戶—項目矩陣的數據表述方法所帶來的稀疏性嚴重制約了推薦效果,而且在系統較大的情況下,它既不能精確地產生推薦集,又忽視了數據之間潛在的關系,發現不了用戶潛在的興趣,而且龐大的矩陣增加了計算的復雜度,因此有必要對該矩陣的表述方式做優化,進行矩陣處理。維數簡化是一種較好的方法,本文提出的算法應用單值分解(SingularValueDecomposition,SVD)技術[8],對用戶—項目矩陣進行維數簡化。
(4)相似度計算。得到降維以后的用戶矩陣US,就可以尋找每個用戶的近鄰。近鄰的確定是通過兩個用戶的相似度來度量的。本文采用Pearson相關度因子[9]求相似度。(5)計算用戶鄰居。該方法有兩種[10],即基于中心的鄰居(Center-BasedNeighbor)和集合鄰居(AggregateNeighbor)。本系統采用了第一種方法,直接找出與用戶相似度最高的前N個用戶作為鄰居,鄰居個數N由系統設定,比如規定N=5。
(6)推薦形成。推薦形成的前提是把當前用戶的鄰居ID號及其與當前用戶的相似度保存到數據庫中,而在前面的工作中已找出各用戶的鄰居以及與用戶的相似度,推薦形成部分只需要對當前登錄用戶進行計算。推薦策略是:對當前用戶已經訪問過的項目不再進行推薦,推薦的范圍是用戶沒有訪問的項目,其目的是推薦用戶潛在感興趣的項目;考慮到系統的項目比較多,用戶交互項目的數量很大,所以只篩選出推薦度最大的N個項目,形成Top-N推薦集,設定N=5。
3生物信息學推薦系統的實現
生物信息學推薦系統的實現可以用圖4來表示。數據庫部分主要存儲用戶信息和項目信息,用SQLServer2000實現。
數據訪問層實現了與用戶交互必需的存儲過程以及觸發器,也使用SQLServer2000,主要完成以下功能:初始化新用戶信息矩陣;插入新項目時更新所有用戶的信息矩陣;用戶點擊項目時更新該用戶對項目的評價;刪除項目時更新所有用戶的信息矩陣。用戶訪問層主要涉及網頁與用戶的交互和調用數據訪問層的存儲過程,在這里不做詳細的介紹。
推薦算法完成整個個性化推薦的任務,用Java實現。(1)數據連接類DataCon。該類完成與SQLServer2000數據庫的連接,在連接之前必須要下載三個與SQLServer連接相關的包,即msutil.jar、msbase.jar和mssqlserver.jar。
(2)數據操作類DataControl。該類負責推薦算法與數據庫的數據交換,靜態成員Con調用DataCon.getcon()獲得數據庫連接,然后對數據庫進行各種操作。把所有方法編寫成靜態,便于推薦算法中不創建對象就可以直接調用。
(3)RecmmendSource與CurrentUserNeighbor。這兩個類作為FCRecommand類的內部類,RecmmendSource用于保存當前用戶的推薦列表,包括推薦項目號和推薦度;CurrentUserNeighbor用于保存鄰居信息,包括鄰居ID號、相似度及其訪問信息。
(4)協同過濾推薦算法FCRecommand。該類實現了整個推薦算法,主要分為鄰居形成方法FCArithmetic和推薦形成方法GenerateRecommend。
下面給出方法FCArithmetic的關鍵代碼:
Matrixuser_item=this.User_Item_Arry();//獲取用戶—項目矩陣
user_item=this.SVD_Calculate(user_item);//調用SVD降維方法
Vectorc_uservector=newVector();//當前用戶向量
Vectoro_uservector=newVector();//其他用戶向量
Vectorc_user_correlate_vector=newVector();
//當前用戶與其他用戶之間相似度向量
for(inti=0;ifor(intj=0;jc_uservector.addElement(user_item.get(i,j));
//1.獲得當前用戶向量
for(intk=0;ko_uservector.clear();
for(intl=0;lo_uservector.addElement(user_item.get(k,l));
//2.獲得其他用戶的向量
//3.計算當前用戶與其他用戶的相似度
usercorrelativity=this.Correlativity(c_uservector,o_uservector);
c_user_correlate_vector.addElement(usercorrelativity);
}
//4.根據當前用戶與其他用戶的相似度,計算其鄰居
this.FindUserNeighbor(i,c_user_correlate_vector);
}
根據鄰居形成方法FCArithmetic,可以得到每個用戶的鄰居。作為測試用例,圖6顯示用戶Jack與系統中一部分用戶的相似度,可以看出它與自己的相似度必定最高;并且它與用戶Sugx訪問了相同的項目,它們之間的相似度也為1,具有極高的相似度。
4結束語
在傳統推薦系統的基礎上,結合當前生物信息學網站的特點,提出一個基于生物信息平臺的推薦系統,解決了傳統生物信息網站平臺信息迷茫的缺點,為用戶推薦其感興趣物種的DNA或蛋白質序列。
優點在于協同過濾的推薦算法能發現用戶潛在的興趣,能促進生物學家之間的交流;推薦算法的鄰居形成與推薦形成兩部分可以單獨運行,減少了系統的開銷。進一步的工作是分析生物數據的特點及生物數據之間的關系,增加用戶和項目數量,更好地發揮推薦系統的優勢。
參考文獻:
[1]PAULR,HALRV.Recommendersystems[J].CommunicationsoftheACM,1997,40(3):56-58.
[2]陳新.生物信息學簡介[EB/OL].(2001).166.111.68.168/bioinfo/papers/Chen_Xin.pdf.
[3]林毅申,林丕源.基于WebServices的生物信息解決方案[J].計算機應用研究,2005,22(6):157-158,164.[4]邢仲璟,林丕源,林毅申.基于Bioperl的生物二次數據庫建立及應用[J].計算機系統應用,2004(11):58-60.
[5]AIRIAS,TAKAHISAA,HIROYAI,etal.Personalizationsystembasedondynamiclearning:InternationalSemanticWebConference[C].Sardinia:[s.n.],2002.
[6]BREESEJS,HECKERMAND,KADIEC.Empericalanalysisofpredictivealgorithmsforcollaborativefiltering:proceedingsoftheFourteenthConferenceonUniversityinArtificialIntelligence[C].Madison:WI,1998:43-52.
[7]SCHAFERJB,KONSTANJ,RIEDLJ.Recommendersystemsine-commerce:proceedingoftheACMConferenceonElectronicCommerce[C].Pittsburgh:PA,1999:158-166.
[8]PRYORMH.Theeffectsofsingularvaluedecompositiononcollaborativefiltering[EB/OL].(1998).cs.dartmouth.edu/reports/TR98-338.pdf.
關鍵詞:醫學檢驗;生物信息學;課程教學
近年來,生物信息學在各醫藥院校越來越受到重視,多所院校相繼在研究生教學中開設了生物信息學課程[1]。而對于醫學本科層次是否需要開設生物信息學課程這一問題,雖然目前各方面的觀點不一,但是已經有一些院校開始進行嘗試。目前醫學檢驗專業(五年制,畢業時授予醫學學士學位)已調整為醫學檢驗技術專業(四年制,畢業時授予理學學士學位),而生物信息學作為一門新課程,在醫學檢驗(技術)專業學生培養中的作用正日益受到關注,逐步被某些院校選擇作為必修課或者選修課。
一、開設課程的必要性
空前繁榮的生物醫學大數據的產出,及其蘊含的重大生命奧秘的揭示,將決定現代生命科技和醫藥產業研發的高度,決定人們對疾病的認識和掌控能力,也將對主導生物醫學大數據存儲、管理、注釋、分析全過程,解決生命密碼的關鍵手段———現代生物信息學技術的發展帶來前所未有的機遇和挑戰[2]。對于醫學專業學生而言,通過學習生物信息學,從而掌握利用各種網絡信息資源來檢索和獲取生物信息數據,并選擇和使用各種生物信息學軟件來分析數據。在當今大數據時代,這方面的知識和技能的培養對于醫學生今后從事醫學科研工作是非常重要的。因此,在醫學專業學生中開設生物信息學課程非常必要。我校從2010年開始將生物信息學設置為研究生教學的必修課;從2013年開始在醫學檢驗專業中開設生物信息學選修課,自2015年開始轉為醫學檢驗技術專業。在醫學檢驗技術專業中開設生物信息學課程,能夠為該專業學生的臨床和科研方面的素質積累提供必要的支持,更重要的是增強了在醫學和信息科學交叉領域解決問題的技能,其意義幾乎等同于在研究生教學中的設課意義。
二、教學內容的安排
醫學檢驗技術專業的教學任務非常緊張,幾乎將原來醫學檢驗專業前八個學期(最后兩個學期為實習階段)課程壓縮到六個學期來完成,學生學習壓力可想而知。我校為了減輕學生負擔,各課程的課時數都比醫學檢驗專業有所減少。但生物信息學并未改變,仍然為16學時。為了在較短的學時內實現教學效果的最大化,我們結合該專業學生的特點和需求,將授課內容分為理論課和實踐課兩部分,實踐課不占學時。理論課主要介紹基本的生物信息學理論、資源和數據的獲取、分析方法和工具的使用;實踐課則通過布置作業,課后上機操作來解決問題。理論課主要內容包括:生物信息學導論、DNA測序技術、序列的獲取、雙序列比對、多序列比對、蛋白質結構分析和預測共計六個專題。實踐課主要內容包括:cDNA及基因組參考序列的獲取;常見序列格式的釋義與轉換;雙序列比對(局部比對);多序列比對(全局比對);蛋白質綜合信息查詢;蛋白質基本性質、疏水區、亞細胞定位、信號肽、跨膜區、模體及結構域分析與二級結構預測;蛋白質三級結構預測。在理論課實施過程中,注重將與生物信息學相關的生命科學和醫學前沿的一些最新進展和最新成果引入理論知識講授中,讓學生在有限學時內能夠進一步認識生物信息學的內涵和課程的價值,追蹤前沿學科的動態,開拓視野。
三、教學方法的設計
生物信息學涉及多個學科領域,交叉性強,在較短的學時內學好這門課程的難度很大。學生的學習興趣與教學內容和手段關系密切,除了精心選擇教學內容外,教學方法上也有很多需要革新乃至創新的地方。在教學過程中,我們形成了頗具特色的教學經驗,由授課教師獨創的授課———實踐———演示(Teaching-Practicing-Showing,TPS)教學模式已應用于教學。TPS教學模式著力于以實際問題為引線,將理論授課與上機實踐有機地融為一體,逐步介紹生物數據分析的各項技能,并指導學生將其融會貫通以真正掌握相關的基本方法與常用工具。首先,在教學內容上引入具體實例來進行教學,比如講解生物信息數據庫(Gene、Nucleotide、UniProt、PDB等)時,通過給出檢索某個人類疾病基因數據的例子來學習數據庫的使用方法。課堂上教學實例的設計需要任課教師在備課時投入大量精力來完成,還需要教師具備多學科交叉的知識。教學實踐表明,與醫學相關的生物信息學分析實例可以讓學生更好地認識該課程的作用,大幅度提高學生的學習興趣和學習的主動性。此外,課堂教學手段也應該豐富多彩,多媒體教學中可以充分使用圖片、動畫等元素。其次,舉例分析時可以進行一定的現場演示,比如講解檢索Unigene數據庫時可以一邊上網演示一邊解釋說明。
四、考核方式的變革
生物信息學作為選修課,既要遵循學校相關的考試制度,也要通過對考試方式的變革來提高考試效果。我們將理論考核與學生的實踐能力考核聯系起來,結合學生課外實踐任務的完成情況和開卷考試成績進行綜合評定。在課程中安排一次課外實踐任務,要求每位學生獨立完成相關分析并提交書面分析報告,該部分占考核成績的20%。具體內容為自行選擇一個人類細胞外功能蛋白:1.利用ClustalX對各物種參考蛋白序列進行多序列比對(輸出PS格式結果);2.分析分子量、等電點、分子式、穩定性、親疏水性及亞細胞定位;3.預測二級結構并模擬三維結構。課程結束后進行開卷考試,內容包括基礎知識和綜合分析,盡量采取靈活的出題方式,并控制題量,該部分占考核成績的80%。近年來的教學實踐表明,這種綜合評定的方式能夠反映學生對該課程的掌握程度,體現學生利用生物信息學知識解決問題的能力。
五、展望
實踐表明,生物信息學課程教學能夠給學生提供所需要的生物信息學知識和技能,但是在教學內容安排、教學方法設計、教學手段使用和教學效果評價等諸多環節都需要進一步探討。在這個過程中,我們既需要吸收傳統教學模式中的優點和精髓,做到嚴謹和切合實際,又需要更新教學理念,突出醫學特色,大膽嘗試新的教學方法和手段,最終形成本課程別具一格的教學特色。
作者:倫永志 單位:大連大學
參考文獻