本站小編為你精心準(zhǔn)備了BP神經(jīng)網(wǎng)絡(luò)在生存中應(yīng)用參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
生存分析(survivalanalysis)起源于19世紀(jì)對(duì)壽命表的分析,目前已廣泛應(yīng)用到臨床研究中,可以處理含有刪失值的數(shù)據(jù),可以同時(shí)考慮事件發(fā)生的結(jié)局及發(fā)生結(jié)局的時(shí)間。目前處理生存資料的方法有參數(shù)模型、非參數(shù)模型及半?yún)?shù)模型。參數(shù)模型對(duì)生存時(shí)間的分布要求非常嚴(yán)格,醫(yī)學(xué)資料中很少能滿足;生存分析中傳統(tǒng)的回歸模型,例如:Cox比例風(fēng)險(xiǎn)模型、加速失效時(shí)間模型也要求模型滿足一定的假設(shè)前提,而實(shí)際數(shù)據(jù)往往難以滿足這些假設(shè)。神經(jīng)網(wǎng)絡(luò)近年來受到普遍的關(guān)注,在醫(yī)學(xué)領(lǐng)域中的應(yīng)用主要預(yù)測(cè)與分類,與傳統(tǒng)回歸模型不同,它可以克服這些缺點(diǎn),在模型中可以容納非線性效應(yīng),交互效應(yīng)、協(xié)變量的效應(yīng)可以隨時(shí)間變化。目前國內(nèi)研究神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用尚較少,本文擬探討幾種不同的神經(jīng)網(wǎng)絡(luò)生存模型在賁門癌預(yù)后中的應(yīng)用。
1方法
bp神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最多的神經(jīng)網(wǎng)絡(luò),一般由一個(gè)輸入層(inputlayer)、一個(gè)輸出層(outputlayer)、一個(gè)或幾個(gè)中間層(隱層)組成,每一層可包含一個(gè)或多個(gè)神經(jīng)元,其中每一層的每個(gè)神經(jīng)元和前一層相連接,同一層之間沒有連接。輸入層神經(jīng)元傳遞輸入信息到第一隱層或直接傳到輸出層,隱層的神經(jīng)元對(duì)輸入層的信息加權(quán)求和,加一個(gè)常數(shù)后,經(jīng)傳遞函數(shù)運(yùn)算后傳到下一個(gè)隱層(或輸出層),常用的傳遞函數(shù)是logistic函數(shù),即φh=1/(1+exp(-z)),輸出層神經(jīng)元對(duì)前一層的輸入信息加權(quán)求和經(jīng)傳遞函數(shù)φ0(線性或logistic函數(shù)或門限函數(shù))運(yùn)算后輸出,例如:如果輸入為xi,對(duì)于含一個(gè)隱層的神經(jīng)網(wǎng)絡(luò)可以得到:
g(xi,θ)=φ0(αk+∑i≠kwikxi+∑jwjkφh(αj+∑iwijxi))(1)
θ表示未知的參數(shù)矢量(即各層的網(wǎng)絡(luò)權(quán)值),BP神經(jīng)網(wǎng)絡(luò)一般采用BP算法訓(xùn)練網(wǎng)絡(luò),訓(xùn)練開始時(shí)選擇初始值0,BP算法通過梯度下降法得到估計(jì)值,使得g(x,)能很好地估計(jì)實(shí)測(cè)值,關(guān)于BP算法及改進(jìn)可參考相關(guān)文獻(xiàn)[1]。
利用BP神經(jīng)網(wǎng)絡(luò)模型建立生存分析模型,常用的方法有:連續(xù)時(shí)間模型(continuoustimemodels)與離散時(shí)間模型(discretetimemodels)。
1.1連續(xù)時(shí)間模型(continuoustimemodels)
最常用的是Faraggi和Simon[2]提出的方法,在Cox比例風(fēng)險(xiǎn)模型中,風(fēng)險(xiǎn)函數(shù)與時(shí)間、協(xié)變量有如下關(guān)系:
h(t,xi)=h0(t)exp(βxi)(2)
通過最大化偏似然函數(shù),使用Newton-Raphson法得到參數(shù)的估計(jì)值,現(xiàn)在使用神經(jīng)網(wǎng)絡(luò)的輸出值g(xi,θ)來代替(2)中的線性項(xiàng)βxi,比例風(fēng)險(xiǎn)模型變成h(t,xi)=h0(t)exp[g(xi,θ)],有偏似然函數(shù):
Lc(θ)=∏i∈uexp∑jwjk/(1+exp(-wijxi))/∑j∈Riexp∑jwjk/(1+exp(-wijxj))(3)
g(xi,θ)可以依賴時(shí)間和協(xié)變量變化,也就是說協(xié)變量的效應(yīng)可以隨時(shí)間而變化,這給我們提供了一個(gè)可以處理刪失變量但又不需要滿足比例風(fēng)險(xiǎn)模型的PH假定的可供選擇的方法。
1.2離散時(shí)間模型(discretetimemodels)
常用的模型有[3]:(1)直接預(yù)測(cè)患者是否可以存活到某年(例如5年),是最簡單的神經(jīng)網(wǎng)絡(luò)模型,模型的輸出層只有一個(gè)神經(jīng)元結(jié)點(diǎn),如欲預(yù)測(cè)多個(gè)時(shí)間點(diǎn),則需建立多個(gè)神經(jīng)網(wǎng)絡(luò)模型(每個(gè)模型對(duì)應(yīng)一個(gè)時(shí)間區(qū)間);(2)多個(gè)輸出結(jié)點(diǎn)的單個(gè)神經(jīng)網(wǎng)絡(luò)模型。
1.2.1輸出層有單個(gè)結(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型是一個(gè)標(biāo)準(zhǔn)的分類神經(jīng)網(wǎng)絡(luò)模型,生存時(shí)間被分成2個(gè)區(qū)間,例如生存時(shí)間是否大于5年。其似然函數(shù)為:
∏patientsptii(1-pi)(1-ti)
其對(duì)數(shù)似然函數(shù)為:
∑patientstilogpi+(1-ti)log(1-pi)
pi:第i個(gè)病人死亡的概率,ti:第i個(gè)觀測(cè)在某時(shí)間點(diǎn)(例如5年)的結(jié)果,如觀測(cè)死亡,取值為1,否則取值為0。對(duì)于刪失的觀測(cè)不能簡單地排除,這樣會(huì)造成偏性,我們使用Cox線性比例風(fēng)險(xiǎn)模型產(chǎn)生的個(gè)體預(yù)測(cè)值對(duì)刪失值做填補(bǔ)。
1.2.2輸出層有多個(gè)結(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò)模型將生存時(shí)間分成幾個(gè)離散的區(qū)間,估計(jì)某個(gè)區(qū)間事件發(fā)生的概率。
不考慮時(shí)間區(qū)間的順序,有模型:logpk-logp1=ηk(X)(k=2,…,P)
從神經(jīng)網(wǎng)絡(luò)可以得到輸出值yk:yk=∑iwikxi+∑jwjkφ1(∑iwijxi)(K=1,…,P)(這里我們?cè)O(shè)ηk(x)=yk-y1),
于是可以得到時(shí)間區(qū)間k的概率:pk=exp(yk)∑l(yl)
建立似然函數(shù)∏patients∑lik=mi+1pki
mi:觀測(cè)i存活的前一個(gè)生存區(qū)間,li:最后的時(shí)間區(qū)間,pki:第i個(gè)病人在時(shí)間區(qū)間k死亡的概率。
本次研究采用靈敏度、特異度、一致性指數(shù)C(concordanceindex)[4,5]作為預(yù)測(cè)準(zhǔn)確性的評(píng)價(jià)指標(biāo)。一致性指數(shù)C是對(duì)含有刪失數(shù)據(jù)的ROC曲線下面積的推廣(generalization),是指預(yù)測(cè)結(jié)果和實(shí)際結(jié)果一致的觀察單位的對(duì)子數(shù)占總的有用對(duì)子數(shù)的比例,即C=一致的對(duì)子數(shù)/有用的對(duì)子數(shù),C接近0.5表明模型的預(yù)測(cè)性能差,接近1表明預(yù)測(cè)性能好。一致性指數(shù)的計(jì)算步驟為[5]:①產(chǎn)生所有的病例配對(duì)。若有n個(gè)觀察個(gè)體,則所有的對(duì)子數(shù)為C2n。②排除兩種對(duì)子:對(duì)子中具有較小觀察時(shí)間的個(gè)體沒有達(dá)到觀察終點(diǎn)及對(duì)子中2個(gè)個(gè)體都沒達(dá)到觀察終點(diǎn)。③計(jì)算有用對(duì)子中,預(yù)測(cè)結(jié)果和實(shí)際相一致的對(duì)子數(shù),④計(jì)算一致性指數(shù)。
2實(shí)例分析
賁門癌是常見惡性腫瘤,對(duì)236例經(jīng)手術(shù)切除但未行放化療的賁門癌患者隨訪,生存時(shí)間為確診到最后一次隨訪,按月記錄,分析的協(xié)變量包括:性別、年齡、腫瘤的長度、組織學(xué)類型、大體分型、浸潤深度、淋巴結(jié)轉(zhuǎn)移情況、TNM分期等臨床上可能的預(yù)后因素。為了減少訓(xùn)練時(shí)間,先采用COX比例危險(xiǎn)模型對(duì)可能影響預(yù)后的因素進(jìn)行篩選,采用向前逐步法,引入標(biāo)準(zhǔn)為0.05,剔除標(biāo)準(zhǔn)為0.10,結(jié)果顯示對(duì)賁門癌患者生存率有影響的因素為:病人的腫瘤長度、淋巴結(jié)轉(zhuǎn)移情況、組織學(xué)類型、篩選結(jié)果見表1。
表1賁門癌患者生存的COX逐步回歸分析結(jié)果(略)
Tab.1TheresultofCoxregressionmodelforcarcinomaofthegastriccardia
2.1BP網(wǎng)訓(xùn)練集、校驗(yàn)集和測(cè)試集的確定
從原始數(shù)據(jù)中隨機(jī)抽取80例作為訓(xùn)練集,80例作為校驗(yàn)集,76例為預(yù)測(cè)樣本。
2.2輸入數(shù)據(jù)的預(yù)處理
使輸入變量的取值落在0到1的范圍內(nèi)。對(duì)于腫瘤長度使用x′i=ximax(x)進(jìn)行歸一化處理;病理分型為無序分類變量,以啞變量的形式賦值。
2.3神經(jīng)網(wǎng)絡(luò)模型的建立及訓(xùn)練
選取Cox回歸選出的3個(gè)變量作為網(wǎng)絡(luò)的輸入。建立輸出層為1個(gè)結(jié)點(diǎn)的離散型神經(jīng)網(wǎng)絡(luò)時(shí),將病人生存時(shí)間按下式分為兩類作為輸出變量
yi(i=1,2,…,n),
即yi=1生存t≥5年
0生存t<5年;建立輸出層為5個(gè)結(jié)點(diǎn)的離散型神經(jīng)網(wǎng)絡(luò)時(shí),將病人生存時(shí)間分為5類作為輸出變量yi,time<1year,1year≤time<2year,2≤time<3year,3≤time<5year,time>5year。
使用Matlab軟件建立神經(jīng)網(wǎng)絡(luò)模型,學(xué)習(xí)率為0.01,傳遞函數(shù)采用logistic傳遞函數(shù),單結(jié)點(diǎn)網(wǎng)絡(luò)的隱單元數(shù)為2,多結(jié)點(diǎn)網(wǎng)絡(luò)隱單元數(shù)為3,采用“早停止”策略防止過度擬合。
2.4兩種神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)性能
使用靈敏度、特異度、一致性指數(shù)C評(píng)價(jià)模型的預(yù)測(cè)性能。
表2兩種神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)性能*(略)
Tab.2Thepredictiveperformanceofthreetypeofneuralnetwork
*判斷界值取0.5
3討論
神經(jīng)網(wǎng)絡(luò)已在語音識(shí)別、圖像診斷分析、臨床診斷、高分子序列分析等許多方面取得了成功的應(yīng)用,在醫(yī)學(xué)研究領(lǐng)域,變量間關(guān)系往往非常復(fù)雜,神經(jīng)網(wǎng)絡(luò)正逐漸變成分析數(shù)據(jù)的流行工具,目前主要應(yīng)用于分類與預(yù)測(cè),用于生存分析方面的研究還較少。國內(nèi)黃德生[5]等建立利用BP神經(jīng)網(wǎng)絡(luò)建立time-codedmodel和single-timepointmodel用于肺鱗癌預(yù)后預(yù)測(cè),賀佳[6]等對(duì)肝癌術(shù)后無瘤生存期的預(yù)測(cè)做了應(yīng)用嘗試。
本文通過實(shí)例建立連續(xù)時(shí)間模型與離散時(shí)間模型探討B(tài)P神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用,F(xiàn)araggi提出的方法還可以擴(kuò)展到其他可以處理刪失數(shù)據(jù)的模型,例如加速失效時(shí)間模型、Buckley-James模型,但哪一種模型更好,還有待進(jìn)一步研究。神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用主要在于[7]:個(gè)體患者預(yù)后的預(yù)測(cè),研究預(yù)后因子的重要性,研究預(yù)后因子的相互作用;對(duì)于預(yù)測(cè)變量的影響力強(qiáng)弱,解釋性還有待進(jìn)一步探討。還有研究者在建立多個(gè)時(shí)間區(qū)間的模型時(shí)將時(shí)間區(qū)間也作為一個(gè)輸入變量,也有學(xué)者將神經(jīng)網(wǎng)絡(luò)納入Bayes方法的研究框架,神經(jīng)網(wǎng)絡(luò)建立的生存分析模型可以探測(cè)復(fù)雜的非線性效應(yīng),復(fù)雜的交互效應(yīng),相信會(huì)逐漸應(yīng)用到生物醫(yī)學(xué)研究領(lǐng)域。
【摘要】目的探討B(tài)P神經(jīng)網(wǎng)絡(luò)在生存分析中的應(yīng)用。方法通過賁門癌預(yù)后的實(shí)例說明神經(jīng)網(wǎng)絡(luò)的連續(xù)時(shí)間模型與離散時(shí)間模型的使用。結(jié)果所建立的神經(jīng)網(wǎng)絡(luò)生存分析模型有較好的預(yù)測(cè)能力。結(jié)論神經(jīng)網(wǎng)絡(luò)在生存分析中有很大的靈活性,在模型中可以容納非線性效應(yīng),協(xié)變量的效應(yīng)可以隨時(shí)間而變化,不要求滿足PH假定,有較廣泛的應(yīng)用前景。
【關(guān)鍵詞】BP神經(jīng)網(wǎng)絡(luò);生存分析;賁門癌