本站小編為你精心準備了甲型流感病毒快速分型參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:
甲型流感病毒危害動物和人類健康,其亞型多、突變率高、易發生重配,因此對其進行檢測及流行毒株基因分析尤為重要。為解決傳統方法進行大量甲型流感病毒序列分型和分析時存在的費工耗時、人為錯誤多等問題,結合實際工作需要,使用Perl語言建立了一套lunix系統下的甲型流感病毒快速分型與分析軟件,并試用其對GenBank中所有宿主為鴨的甲型流感病毒進行了分析。結果顯示,該軟件可在較短的時間內完成大量序列的分析、分型和遺傳進化研究,可用于甲型流感病毒的大規模流行病學調查分析。
關鍵詞:
甲型流感病毒;基因分析;亞型;遺傳進化
甲型流感病毒能感染多種宿主,包括家禽、豬、馬、野生鳥類和人等溫血動物。有關甲型流感流行的記錄已超過百年[1],先后造成了1918年、1957年、1968年和2009年四次全球性流感大流行,對人類的生命健康和社會生活形成了巨大威脅。對獸醫工作有重要意義的禽流感病毒也屬甲型流感病毒。在我國,有多種亞型的甲型流感病毒流行,時有導致動物疫情和公共衛生事件的發生,如2013年發生的“H7N9流感事件”[2]。甲型流感病毒屬于正黏病毒科、流感病毒屬的單股負鏈RNA病毒,其基因組由8個單股負鏈RN段組成[3]。其粒子表面有血凝素(Hemag-glutinin,HA)和神經氨酸酶(Neuraminidase,NA)兩種表面結構蛋白。根據HA和NA的抗原性差異可分為18種HA亞型(H1~H18)和11種NA亞型(N1~N11)[4-6]。不同亞型甲型流感病毒的致病性和宿主嗜性等均有較大差異。低保真RNA聚合酶會引起病毒的高突變率和重組,造成病毒分子出現多樣性,使每個病毒亞型可變異為多種不同的分支[7]。通常一個堿基對的突變,也可引起病毒對宿主感染能力的改變[8]。由于其亞型多、突變率高、易發生重配,所以檢測并對流行毒株進行基因分析尤為重要。通常需要使用RT-PCR方法擴增甲型流感的HA和NA基因,再通過Blast比對確定其亞型,之后再與同一亞型的其他流行毒株的序列進行遺傳演化分析,然后才能確定其分支。在對大量樣品進行檢測和分析的流行病學調查中,需要對每個病毒的亞型進行確定,還要將同一亞型的病毒序列進行分類整理和分析,導致效率較低。而使用MEGA等windows系統下的分析軟件進行序列比對,耗時過長,且需要進行大量的人工整理與比對,造成分析結果人為錯誤的機會較多。針對這一問題,本文結合實際工作,建立了一套lunix系統下的甲型流感病毒快速分型與分析軟件,并試用其對Gen-Bank中宿主為鴨的所有甲型流感病毒進行了亞型和遺傳演化分析。
1材料和方法
1.1設備與操作系統高性能計算平臺為DellT630塔式服務器,具有2顆Intel(R)Xeon(R)內存264G,存儲23T,操作系統版本為CentOSLinuxrelease7.1.1503(Core),由中國動物衛生與流行病學中心搭建。
1.2分析軟件構建
1.2.1參考序列篩選。為快速準確進行甲型流感病毒的分型,從GenBank中嚴格篩選了35條甲型流感病毒序列作為參考序列,這些序列包含了甲型流感病毒的全部亞型,見表1。
1.2.2分型理論基礎。為對甲型流感病毒的序列進行分型解析,將其與35條參考序列進行比對。根據比對同源性,在35條參考序列中,篩選與病毒序列親緣關系最近的一條,若同時滿足閾值標準,則該序列與此參考序列是同一基因或亞型。同時為實現大批量樣本分型解析,采用并行化與自動化的方式進行數據處理,將同一基因或同一亞型基因自動整合為一個文件,自動進行序列對齊與分析。本分型軟件擬通過將待分析序列(Query序列)與參考序列(Ref序列)進行BLAST(軟件版本2.2.26)比對,根據比對結果中Query序列與Ref序列的同源性進行分析,選取最優的比對結果作為分型判定依據。由于BLAST采用局部比對的算法,因此,在同源比對過程中,兩兩序列比對結果可能會分成多個局部比對結果輸出。親緣關系較遠的序列之間由于局部具有較高相似性,也會具有較高的比對分值(E-value)與同源性值(identity),并作為一個比對結果輸出出來。但綜合考慮比對長度因素,二者之間并不存在真正的同源關系,這會給分析造成干擾,出現假陽性結果。新開發的這款軟件,能對兩條序列局部的比對結果進行重新計算。首先,對原始BLAST結果進行過濾,過濾掉比對長度小于50bp,并且identity值小于50的比對(這些比對由于同源性較低,會給計算帶來干擾)。然后,通過Query序列比對到Ref序列的位置信息,將兩條序列的多個比對結果進行合并,計算Query序列與Ref序列的覆蓋比率。
1.2.3并行化計算。一組Query序列之間是相互獨立的,每條序列需獨立與35條參考序列進行比對。因此,為提高計算效率,采用并行化處理和比對方式,將每條Query序列同時與參考序列進行BLAST比對計算,以期大大提高分析速度。
1.2.4系統發育樹構建。在完成序列分型鑒定之后,將具有同一亞型的序列整合,進行系統發育分析。選擇MEGA-CC軟件(軟件版本7.0.7)對同一基因或同一亞型的Query序列進行多序列比對,比對之后采用MEGA-CC對多序列比對結果進行系統發育樹構建。采用并行化的處理方式,對每個基因或每個亞型的基因并行化計算。
1.2.5自動化。采用傳統人工方法進行數據處理,需消耗大量時間,并且產生人為誤差的幾率較大。新開發的自動化的數據處理軟件,在程序中加入了上文提到的并行化處理方法。該軟件能夠實現從數據比對、甲型流感病毒分型和整理、結果統計以及系統發育樹等過程的自動化完成,只需將Query序列調入分析,即可完成所有數據的處理工作。
1.3GenBank中鴨源甲型流感病毒的序列分析利用該分析軟件,從GenBank下載了25815條宿主為鴨的甲型流感病毒序列進行軟件的驗證工作,序列詳細統計見表2。
2結果
2.1分析軟件構建按照預期設想,使用Perl語言編輯11條命令或程序,采用并行處理和自動化的方式,構建完成甲型流感病毒分型與分析軟件。初步測試顯示其能正常運算和分析。
2.2GenBank中鴨源甲型流感病毒的序列分析使用甲型流感病毒快速分型與分析軟件對25815株鴨源甲型流感病毒序列進行分型,輸出結果均包含在Result文件夾中,每個基因或每個亞型基因的所有序列均整理至對應基因名稱的文件中的一個文件,未比對到參考序列的基因歸為no_type,統計信息可在stat文件中顯示。分析結果統計見表3,與GenBank中的序列背景材料核實均符合。軟件具體運行時間統計見表4。分型結束之后,選取HA_H12作為代表,使用MEGA-CC軟件(軟件版本7.0.7)進行多序列比對,并進行系統發育分析。多序列比對結果(部分)如圖1所示,系統發育樹見圖2。
3討論
本文采用Perl語言編寫了甲型流感病毒快速分型與分析軟件,能夠用于大量甲型流感病毒基因的分析,目前國內外均未見開發類似軟件的報道。在整個數據分析過程中,需完成Query序列與Ref序列BLAST比對、比對結果過濾、計算Query(coverage)與Ref(coverage)、分型、結果統計、同一亞型多序列比對,以及構建系統發育樹等過程。由于使用了高性能計算機分析平臺,并且采用并行化處理方式,因此該軟件不受Query序列條數限制,可以同時計算數十萬個樣品的快速分型。在對未知樣品測序序列進行分型過程中,需要將Query序列與已知參考序列進行同源比對,根據比對相似性進行結果判斷,進而對未知樣品進行分型鑒定。因此參考序列的選擇對于分型結果有很大的影響。如果參考序列中不存在該亞型,就無法進行分型鑒定。這里我們選擇每一亞型中已發表的具有代表性的序列作為參考序列,減少了參考序列帶來的誤差。從軟件分析結果來看,在分析GenBank中鴨感染的甲型流感病毒序列時,有34條序列未得到分析結果。分析其原因,可能由于序列長度過短(34條序列的長度為54~485bp),其長度均小于對應基因參考序列長度的50%。根據比對長度對BLAST結果進行過濾時,會將比對長度過短的序列過濾掉,導致這些序列無法進行分型和分析。
但這種序列在實際應用中屬極少數,不會對軟件的分析功能造成影響。與GenBank下載數據的分型和分析,結果顯示,該軟件可以快速、準確對甲型流感病毒進行分型、分析和遺傳進化研究,并且不具備較深生物信息學和病原學基礎的操作人員也可進行操作,所以該軟件能夠滿足各類動物疫病預防控制機構和研究院所開展流感病毒的流行病學調查和遺傳變異研究,可以提高我國甲型流感的分析和應急能力。
作者:王楷宬 王通 莊青葉 邱源 彭程 王素春 陳繼明 單位:中國動物衛生與流行病學中心