亚洲国产天堂在线mv网站,亚洲fuli在线观看,在线观看视频资源

本站小編為你精心準備了深度學習下電子病歷實體標準化分析參考范文，愿這些范文能點燃您思維的火花，激發您的寫作靈感。歡迎深入閱讀并收藏。

深度學習下電子病歷實體標準化分析

摘要：電子病歷中同一醫療概念的提及形式具有多樣性，阻礙了醫療數據的分析和利用，研究電子病歷實體標準化具有現實意義。設計并實現了基于深度學習的電子病歷實體標準化算法，使用Siamese網絡架構和LSTM網絡搭建模型，采用Pairwise方法訓練模型，在測試集上與傳統的基于編輯距離的方法進行比較。對手術實體標準化的實驗結果顯示，深度學習算法正確率達到79.71%，比傳統方法提高了17.4個百分點，表明了深度學習算法在電子病歷實體標準化方面的有效性。

關鍵詞：電子病歷；實體標準化；長短期記憶網絡；孿生網絡

引言

隨著醫療信息化的快速發展，各醫院積累了海量的電子病歷數據，如何有效利用這些數據提高醫療健康服務水平是研究熱點。電子病歷中同一醫療概念會有多種不同的表述形式，阻礙了醫療數據的檢索、分析和利用。把形式多樣的實體提及（EntityMention）映射到標準的醫療術語，即實體標準化（EntityNormalization），是有效利用醫療健康數據的前提。電子病歷實體標準化研究由國際公開評測任務推動，最具代表性的兩個評測任務是2013年的ShARe/CLEFeHealthSharedTask1b［1］和2014年的SemEvalTask7［2］，這兩個任務都是要找到電子病歷中的實體（如疾病和癥狀）在“醫學術語系統命名法—臨床術語［3］”（SystematizedNo⁃menclatureofMedicine-ClinicalTerms，簡稱SNOMED-CT）中的編碼。現有的實體標準化方法大多基于實體提及與標準術語的相似度得分。RohitJKate［4］通過改進的編輯距離計算相似度，RobertLeaman等［5］采用成對排序學習方法，用向量空間模型表示實體提及并引入權重矩陣計算相似度得分。LiHaodi等［6］使用深度學習方法取得在ShARe/CLEF數據集和NCBI疾病數據集［7］上的最高正確率，該方法先使用人工編寫的規則從標準術語集中挑出候選，再基于卷積神經網絡輸出語義向量對候選排序。上述研究都面向英文電子病歷，針對中文電子病歷的實體標準化研究相對較少，且缺乏公開可用的標注數據集。趙亞輝［8］選取了國內某醫院的門診和住院病歷作為實驗數據，以國際疾病分類第10版（ICD-10）為目標術語集，研究了疾病名的標準化。在門診病歷上改進的編輯距離效果最好，正確率為76.6%，在住院病歷上RankSVM的正確率最高，達到74.7%。

1實體標準化算法

1.1算法總體結構

基于深度學習的實體標準化算法總體結構見圖1。本算法主要思想是計算手術名與各個標準術語的匹配度，選擇最匹配的術語。匹配度計算采用Siamese網絡。Siamese網絡是一種神經網絡結構而不是具體的某種網絡，在自然語言處理和計算機視覺中應用廣泛［9-13］，它有兩個結構相同共享權值的子網絡。圖1中的兩個字嵌入完全相同，兩個編碼器也完全一樣。輸入的短語中每個字都會映射到一個多維稠密向量，稱為字嵌入，也常稱為字向量。本文使用LiS等［14］在百度百科的文本上訓練出的字向量，并且在訓練階段使字向量保持不變，不再微調。然后使用編碼器分別將兩個字向量序列映射到目標向量空間（可以看成是特征提取），最后在目標向量空間使用歐氏距離表示兩個輸入的匹配度，歐氏距離越小則匹配度越高。本文未采用分類模型。因為手術的標準術語有上萬條，如果把每個術語看作一個類別則類別數量龐大，而每個類別的樣本數量較少甚至沒有，用分類算法顯然效果不佳。而Siamese網絡能從訓練樣本中學習到匹配度模型，即使類別數量龐大也能獲得不錯的效果。

1.2BiLSTM網絡

本文采用BiLSTM網絡作為Siamese網絡結構中用于提取特征的編碼器。長短期記憶網絡（LongShort-TermMemory，簡稱LSTM）是循環神經網絡（RecurrentNeuralNetwork，簡稱RNN）的一種。普通的循環神經網絡用于序列數據建模時容易產生梯度爆炸和梯度消失，難以訓練。LSTM通過引入遺忘門、記憶門、輸出門的三態門結構，使網絡能夠選擇性地保留狀態信息，解決了梯度爆炸和梯度消失問題。因此，LSTM適用于對序列數據建模，如文本數據。普通的LSTM只能捕捉到從前向后的信息，但在實體標準化任務中僅有單向信息是不夠的。雙向長短期記憶網絡（Bi-directionalLongShort-TermMemory，簡稱BiLSTM）由前向LSTM與后向LSTM組合而成，也就是在單向LSTM基礎上增加了一個逆向的LSTM，前向和后向的輸出連接在一起作為整個網絡輸出，這樣能更好地捕捉到雙向序列信息［15］。

1.3訓練方法

模型訓練采用Pairwise方法，樣本是一對短語，即手術名和標準術語。正例是病歷手術名和對應的標準術語，反例是手術名和不對應的標準術語。兩個短語的向量表示為F1和F2，它們的歐氏距離記作d(F1F2)。訓練目標是使匹配兩個短語的d(F1F2)盡可能小，而不匹配兩個短語的d(F1F2)盡可能大。所以，損失函數需要滿足兩個性質：①對于兩個匹配短語，d(F1F2)越小，損失函數越小；②對于兩個不匹配短語，d(F1F2)越小，損失函數越大。本文使用對比損失［16］作為損失函數，定義如下：其中di和yi分別表示第i項樣本的編輯距離和標簽。yi=1表示兩個短語匹配，yi=0表示兩個短語不匹配。當yi=1時，該樣本的損失是yidi2，顯然滿足第一條性質。當yi=0時，該樣本的損失是max{0m-di}2，距離小于m時獲得(m-di)2的懲罰，距離大于m時沒有懲罰，距離越小損失越大，距離足夠大時損失為0，滿足第二條性質。本文使用隨機梯度下降的改進算法Adam［17］使損失函數最小，訓練時采用mini-batch模式。

2實驗

2.1實驗數據

手術是電子病歷實體中的重要類別，本文選擇中文電子病歷中手術實體標準化問題進行實驗。我國一直采用國際疾病分類第9版臨床修訂本（InternationalClassifica⁃tionofDiseases，NinthRevision，ClinicalModification，簡稱ICD-9-CM）作為手術與操作分類代碼的填寫標準，并于2015年對其擴碼修訂，收錄了醫院各個科室的各種手術與操作共計1萬余條，內容準確完備［18］。因此，本文使用擴碼后的ICD-9-CM中的標準術語作為手術實體標準化術語集。本文選取某三甲醫院的300份電子病歷中出現的345個不同手術名作為實驗數據，并標注這些手術名對應的ICD-9-CM標準術語。隨機選取20%作為測試集，剩下的80%用于訓練。訓練需要成對的短語，訓練集中的手術名與對應的標準術語作為正例，反例是手術名與隨機選取的不對應ICD術語。通過上述方式構建的數據對總計5429條，正負例比例為19∶1。

2.2實驗環境、超參數與評價指標

實驗代碼使用Python3.6，Tensorflow1.8編寫。硬件環境：IntelE5-1620v4，NVIDIAGeForceGTX1080。操作系統：Windows10。經過多次實驗，選定的超參數見表1。大部分實體標準化研究都采用正確率作為算法的評價指標。標準術語數量多，實體標準化難度較大，因此本文除了top-1正確率以外，還加入top-5正確率作為額外的評價參考［19］。top-5正確率指算法給出的前5個候選中的正確答案比率。

2.3實驗結果與分析

本文選擇基于編輯距離的相似度算法［20］作為比較基準，計算公式為：式（2）中，A，B為待計算的兩個字符串，len(A)和len(B)分別是字符串A和B的字符個數，d(AB)是A和B的編輯距離，即將A變成B的最小操作次數，允許的編輯操作為替換一個字符、插入一個字符、刪除一個字符3種。表2中，Siamese-LSTM表示編碼器部分使用單向的LSTM網絡，LSTM單元數量為20。Siamese-BiLSTM表示編碼器使用雙向LSTM，每個方向有10個LSTM單元，總共20個。編輯距離算法的top-5正確率比top-1正確率高了約14.5個百分點，差距較大。通過分析編輯距離算法出錯的樣本，發現與手術名在字面上相似的標準術語有多個，匹配時易造成干擾，比如“左肺上葉切除術”對應標準術語是“肺葉切除術”，但對“余肺肺葉切除術”造成了干擾，使得編輯距離算法無法作出正確匹配。兩種Siamese網絡在top-1、top-5正確率上都明顯好于編輯距離，可見對于手術實體標準化，僅依靠字面形式上的相似度，融合語義信息和序列信息的向量空間模型能有效消除干擾項影響，提升標準化正確率。對于Siamese網絡編碼器部分，雙向LSTM在top-1、top-5正確率上均明顯好于單向LSTM，尤其是在最重要的top-1正確率上提升了約11.6個百分點，說明手術實體標準化任務僅有單向序列信息是不夠的，增加逆向序列信息能有效改善手術實體標準化效果。

3結語

電子病歷實體形式多樣，嚴重阻礙了醫療數據的分析和利用。本文針對中文電子病歷實體標準化進行了研究。基于Siamese神經網絡結構和Pairwise訓練方法實現了手術實體標準化算法。實驗結果顯示，基于深度學習的方法比基于編輯距離的相似度算法準確率明顯提高，表明深度學習算法可有效應用到實體標準化問題上。但目前算法的正確率尚未達到實際應用程度，還需對現有算法進一步優化，或者使用更優的模型和訓練方法。

作者：趙逸凡鄭建立徐霄玲單位：上海理工大學

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

深度學習下電子病歷實體標準化分析范文

擴展閱讀

精品推薦