本站小編為你精心準(zhǔn)備了學(xué)習(xí)食品安全事件實(shí)體抽取模型分析參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。
摘要:實(shí)體在非結(jié)構(gòu)化文本中不僅與詞匯具有密切的關(guān)系,而且是構(gòu)成短語(yǔ)的關(guān)鍵部分,特別是實(shí)體自身具有豐富的語(yǔ)義性,能夠?yàn)楹罄m(xù)語(yǔ)義知識(shí)的深度挖掘奠定基礎(chǔ)。為了更好地從食品安全事件文本中挖掘出更加有價(jià)值和意義的知識(shí),結(jié)合LSTM-CRF模型,筆者提出了食品安全事件實(shí)體抽取的基本流程,并構(gòu)建了相應(yīng)的食品安全事件實(shí)體抽取模型。在選取領(lǐng)域食品安全事件文本上,構(gòu)建的食品安全事件實(shí)體抽取模型的調(diào)和平均值達(dá)到了相對(duì)可以接受的程度。基于深度學(xué)習(xí)的食品安全事件實(shí)體自動(dòng)抽取模型不僅為實(shí)體的抽取提供了策略,而且在一定程度上驗(yàn)證了深度學(xué)習(xí)性能的整體狀況。
關(guān)鍵詞:食品安全事件;實(shí)體;LSTM-CRF
1引言
食品安全涉及到千家萬(wàn)戶(hù)的切身利益,因此如何對(duì)食品安全進(jìn)行全面、細(xì)致且有效的監(jiān)管成為了控制食品安全事件發(fā)生的關(guān)鍵。通過(guò)構(gòu)建細(xì)顆粒度的食品安全事件知識(shí)庫(kù)是一種有效的方式和手段。在構(gòu)建食品安全事件知識(shí)庫(kù)的過(guò)程中,核心步驟是識(shí)別食品安全事件文本中的相關(guān)實(shí)體。因?yàn)閷?shí)體在文本當(dāng)中從形式上不僅是句法的有效構(gòu)成部分,而且從語(yǔ)義上看扮演了極為重要的語(yǔ)義角色。所以,筆者基于經(jīng)過(guò)人工標(biāo)注的大規(guī)模帶有命名實(shí)體的文本,結(jié)合BiLSTM-CRF這一深度模型,探究了食品安全事件中實(shí)體的識(shí)別問(wèn)題。隨著食品安全事件數(shù)據(jù)逐步的增加,目前針對(duì)食品安全事件文本進(jìn)行的實(shí)體抽取主要基于新聞文本數(shù)據(jù)展開(kāi),主要通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行。基于ICTCLAS對(duì)新聞文本的自動(dòng)分詞,首先,江美輝等界定了新聞文本中的時(shí)間、地點(diǎn)、主體、事件這四類(lèi)實(shí)體,并完成了對(duì)相應(yīng)實(shí)體的抽取[1]。其次,在抽取的實(shí)體基礎(chǔ)上構(gòu)建了實(shí)體關(guān)系網(wǎng)絡(luò)。最后,構(gòu)建了一體化的食品安全事件實(shí)體抽取和分析平臺(tái)。基于1500萬(wàn)字構(gòu)成的食品安全事件語(yǔ)料庫(kù),王東波等首先獲取了食品安全事件實(shí)體的內(nèi)部和外部特征[2],其次制定了相應(yīng)的抽取模板,并驗(yàn)證了模板的不同性能和特征。最后構(gòu)建了基于條件隨機(jī)場(chǎng)的食品安全事件實(shí)體抽取模型。許華等對(duì)醫(yī)療文本中實(shí)體的抽取與本研究相近[3],該研究首先完成了對(duì)醫(yī)療語(yǔ)料的分詞,其次基于相應(yīng)的詞性標(biāo)記集,對(duì)文本進(jìn)行了詞性標(biāo)注,最后基于規(guī)則完成了對(duì)醫(yī)療文本中實(shí)體的抽取。基于統(tǒng)計(jì)獲取的多特征,吳毅完成了對(duì)食品安全事件當(dāng)中食品名稱(chēng)與誘因的實(shí)體的自動(dòng)識(shí)別[4]。隨著人工智能的興起,基于深度學(xué)習(xí)的實(shí)體抽取逐步發(fā)展起來(lái)。例如,通過(guò)觀察實(shí)體的分布特征,把深度信念網(wǎng)絡(luò)有效擴(kuò)展到神經(jīng)網(wǎng)絡(luò)上,馮蘊(yùn)天等結(jié)合具體的實(shí)體抽取特征和任務(wù),給出了一種基于深度學(xué)習(xí)的實(shí)體抽取框架[5]。通過(guò)分析實(shí)體所構(gòu)成漢字的特征,利用深度學(xué)習(xí)模型可以自動(dòng)發(fā)掘?qū)嶓w字與字之間的語(yǔ)義組合特征,Liang等利用BILSTM-CRF深度學(xué)習(xí)模型[6],發(fā)掘字與字之間的語(yǔ)義特征,構(gòu)建了基于深度學(xué)習(xí)的實(shí)體識(shí)別模型,并在公開(kāi)的數(shù)據(jù)集上獲得相對(duì)突出的成果。通過(guò)分析中文地名的分布特征,沈思等針對(duì)中文地名實(shí)體抽取的具體研究任務(wù)[7],充分利用RNN這一深度學(xué)習(xí)模型,完成了對(duì)中文地名的自動(dòng)識(shí)別,并比較基于字與基于詞兩種策略的優(yōu)劣,通過(guò)具體的實(shí)驗(yàn)驗(yàn)證了基于字進(jìn)行實(shí)體識(shí)別的有效性。上述基于深度學(xué)習(xí)的實(shí)體識(shí)別方法和技術(shù),為本文構(gòu)建基于深度學(xué)習(xí)模型的食品安全事件實(shí)體識(shí)別提供了直接而有效的借鑒。
2食品安全事件語(yǔ)料和模型介紹
2.1語(yǔ)料說(shuō)明
通過(guò)對(duì)2195篇食品安全事件語(yǔ)料的分析,筆者定義了四類(lèi)食品安全事件實(shí)體,即食品及食品安全事件實(shí)體、時(shí)間實(shí)體實(shí)體、人物及組織實(shí)體和地點(diǎn)實(shí)體,并通過(guò)人工的方式分別對(duì)以上四類(lèi)實(shí)體進(jìn)行了標(biāo)注。為了將語(yǔ)料轉(zhuǎn)化為可供神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和測(cè)試的格式,為了便于進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練,針對(duì)食品安全事件實(shí)體的內(nèi)容特征,定義了17位標(biāo)記集進(jìn)行標(biāo)注,并按照8∶2的比例將標(biāo)注后語(yǔ)料分為訓(xùn)練文本和測(cè)試文本,在基于BiLSTM-CRF模型上進(jìn)行自動(dòng)標(biāo)注測(cè)試。然后抽取了與“瘦肉精”有關(guān)的食品安全事件新聞?wù)Z料,在同樣的模型上對(duì)其進(jìn)行十折交叉訓(xùn)練。通過(guò)計(jì)算Precision(準(zhǔn)確率)、Recall(召回率)和F-measure(F值)對(duì)BiLSTM-CRF模型的識(shí)別效果進(jìn)行評(píng)價(jià)。本文定義了17位標(biāo)記集{B-f,I-f,E-f,S-f,B-l,I-l,E-l,S-l,B-t,I-t,E-t,S-t,B-p,I-p,E-p,S-p,O},以字或詞為最小單位,對(duì)食品安全事件實(shí)體進(jìn)行標(biāo)記,各個(gè)標(biāo)記的含義見(jiàn)下表1。例如對(duì)于食品及食品安全事件實(shí)體中的“瘦肉精”,對(duì)應(yīng)的標(biāo)記是“S-f”;人物及組織實(shí)體中的“北京市工商局”,相應(yīng)的標(biāo)記為“北京市B-p”,“工商局E-p”
2.2模型介紹
在深度學(xué)習(xí)系列模型中,循環(huán)神經(jīng)網(wǎng)絡(luò)RecurrentNeuralNetwork(RNN)是一種高效的序列標(biāo)記人工神經(jīng)網(wǎng)絡(luò)[8],該模型能夠有效解決反饋機(jī)制的問(wèn)題,有效解決某一時(shí)刻下反饋結(jié)果計(jì)算的問(wèn)題,具體隱藏層和輸出層的計(jì)算公式如下。ht=f(Uxt+WHt-1)(1)yt=g(Vht)(2)雖然循環(huán)神經(jīng)網(wǎng)絡(luò)解決了反饋機(jī)制的問(wèn)題,但是對(duì)于長(zhǎng)距離依賴(lài)的特征知識(shí)問(wèn)題,這一深度學(xué)習(xí)模型整體表現(xiàn)效果相對(duì)較差,其突出表現(xiàn)為會(huì)造成梯度消失和梯度爆炸問(wèn)題。在上述這一背景下,長(zhǎng)期短期記憶網(wǎng)絡(luò)LongShort-TermMemory(LSTM)這一深度學(xué)習(xí)模型被提了出來(lái)[9]。LSTM模型通過(guò)記憶單元和門(mén)能夠有效控制歷時(shí)信息的存在和消失,具體使用的門(mén)包括輸入控制門(mén)、輸出控制門(mén)和遺忘門(mén),具體記憶單元的計(jì)算如下。通過(guò)三個(gè)門(mén),LSTM有效解決了RNN難以保留較遠(yuǎn)距離信息的問(wèn)題,而B(niǎo)iLSTM(雙向LSTM)模型能夠有效控制正向和逆向的信息,從而實(shí)現(xiàn)存儲(chǔ)兩個(gè)方向的歷時(shí)信息的目的。雖然能夠有效保留相應(yīng)的歷時(shí)信息,但是當(dāng)LSTM輸出時(shí)會(huì)存在非常強(qiáng)的依賴(lài)關(guān)系,因此會(huì)影響模型的整體性能。在這一背景下,LSTM和CRF組合模型被提了出來(lái),這一組合模型不僅能夠有效考慮分詞、詞性、實(shí)體等上下文的信息和知識(shí)特征,而且在輸出時(shí)CRF還能有效解決輸出獨(dú)立標(biāo)簽之間的依賴(lài)問(wèn)題。為了確保面向海量食品安全事件抽取實(shí)體的整體性能,在具體實(shí)體抽取的過(guò)程中,使用了BiLSTM-CRF模型進(jìn)行實(shí)體識(shí)別的實(shí)驗(yàn)[10]。根據(jù)對(duì)深度學(xué)習(xí)系列模型識(shí)別效果的評(píng)價(jià)指標(biāo)要求,本文對(duì)基于BiLSTM-CRF模型的食品安全事件實(shí)體自動(dòng)識(shí)別性能的評(píng)價(jià)主要通過(guò)三個(gè)指標(biāo)進(jìn)行衡量:準(zhǔn)確率(Precision)、召回率(Recall)、F值(F-measure)。具體計(jì)算公式如下。式中,A代表正確識(shí)別出的食品安全事件實(shí)體個(gè)數(shù),B代表錯(cuò)誤識(shí)別出的食品安全事件實(shí)體個(gè)數(shù),C代表未識(shí)別出來(lái)的食品安全事件實(shí)體個(gè)數(shù)。其中F值能夠有效均衡精準(zhǔn)率和召回率之間的關(guān)系。
3實(shí)體抽取結(jié)果分析
本文基于人工標(biāo)注的2195篇食品安全事件語(yǔ)料,構(gòu)建了包含164萬(wàn)行tokens的深度學(xué)習(xí)語(yǔ)料庫(kù)。在具體的實(shí)驗(yàn)中將語(yǔ)料庫(kù)按照8∶2的比例分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行實(shí)驗(yàn)。在具體實(shí)驗(yàn)過(guò)程中只使用了食品安全實(shí)體的字為基本單位。在具體實(shí)驗(yàn)過(guò)程中所使用的參數(shù)信息為:隱藏單元維度設(shè)置為300;batchsize的值設(shè)定為64;迭代次數(shù)界定為200;BiLSTM所使用的層數(shù)為3;earlystop界定為了100;特征數(shù)量設(shè)定成了6,而學(xué)習(xí)率的值為0.002。由于在基于深度學(xué)習(xí)訓(xùn)練實(shí)體識(shí)別過(guò)程中需要使用到GPU,因此對(duì)本文的實(shí)驗(yàn)環(huán)境介紹如下,CPU:Intel(R)Core(TM)[email protected]內(nèi)存:16GBDDR4;GPU:NVIDIAQuadroK1200顯存:4GBGDDR5;操作系統(tǒng):ubuntu16.04。服務(wù)器上高性能的GPU可以支持大規(guī)模的并行運(yùn)算。基于BiLSTM-CRF模型的實(shí)體識(shí)別結(jié)果如表2所示。在大規(guī)模語(yǔ)料上,本文得到的所有食品安全事件文本當(dāng)中識(shí)別的結(jié)果,在調(diào)和平均值上達(dá)到了65.12%,僅從字的角度來(lái)看,獲得的模型整體性能較為合理。在具體訓(xùn)練過(guò)程中,Trainloss總體趨勢(shì)如圖1所示。為了更進(jìn)一步的探究模型性能,并在小規(guī)模語(yǔ)料和主題比較一致的語(yǔ)料上探究模型的性能。本文從現(xiàn)有語(yǔ)料中以瘦肉精為主題抽取了包含9000行的tokens深度學(xué)習(xí)語(yǔ)料在此模型中進(jìn)行十折交叉訓(xùn)練,基于BiLSTM-CRF模型的在主題為瘦肉精的食品安全事件實(shí)體識(shí)別十折交叉實(shí)驗(yàn)結(jié)果如表3所示。從表3可以看出,在所選擇的食品安全事件主題上最優(yōu)的模型性能達(dá)到了90.11%,整體上達(dá)到了實(shí)用的程度,該模型的精準(zhǔn)率達(dá)到了95.35%,這一組模型的性能指標(biāo)充分說(shuō)明了深度學(xué)習(xí)與條件隨機(jī)場(chǎng)組合模型的突出的性能。但是從表3可以看出,個(gè)別模型的性能并不是太突出,究其原因,是所選語(yǔ)料的規(guī)模過(guò)小,因?yàn)樵谛∫?guī)模的語(yǔ)料中,語(yǔ)料中實(shí)體的分布會(huì)存在不均衡和偏頗的問(wèn)題。
4結(jié)語(yǔ)
食品安全事件中的實(shí)體不僅具有多維度的語(yǔ)義知識(shí),而且是構(gòu)成應(yīng)對(duì)食品安全事件應(yīng)對(duì)策略的重要知識(shí)單元,食品安全事件中實(shí)體識(shí)別的精準(zhǔn)度對(duì)整個(gè)食品安全事件的知識(shí)挖掘具有重要的意義和價(jià)值。筆者在所選取的特定語(yǔ)料文本上,構(gòu)建了基于深度學(xué)習(xí)的食品安全事件實(shí)體模型,并對(duì)該模型的整體性能進(jìn)行了3個(gè)指標(biāo)上的分析。在后續(xù)的研究中,應(yīng)適當(dāng)擴(kuò)展訓(xùn)練模型的語(yǔ)料規(guī)模,并增加新的特征以提高整個(gè)模型的性能。
參考文獻(xiàn)
[1]江美輝,安海忠,高湘昀,等.基于復(fù)雜網(wǎng)絡(luò)的食品安全事件新聞文本可視化及分析[J].情報(bào)雜志,2015(12):121-127.
[2]王東波,吳毅,葉文豪,等.多特征知識(shí)下的食品安全事件實(shí)體抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2017,1(3):54-61.
[3]許華.基于有監(jiān)督學(xué)習(xí)的醫(yī)療實(shí)體抽取方法研究[D].武漢:武漢科技大學(xué),2016:23.
[4]吳毅.基于復(fù)雜特征知識(shí)的食品安全事件多類(lèi)型命名實(shí)體抽取研究[D].南京:南京農(nóng)業(yè)大學(xué),2016:45.
[5]馮蘊(yùn)天,張宏軍,郝文寧.面向軍事文本的命名實(shí)體識(shí)別[J].計(jì)算機(jī)科學(xué),2015,42(7):15-18.
[7]沈思,朱丹浩.基于深度學(xué)習(xí)的中文地名識(shí)別研究[J].北京理工大學(xué)學(xué)報(bào),2017,37(11):1150-1155.
作者:沈思 胡業(yè)勛 單位:南京理工大學(xué)