亚洲视频二区,羞羞视频入口网站,永久免费在线

本站小編為你精心準(zhǔn)備了學(xué)習(xí)食品安全事件實(shí)體抽取模型分析參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫(xiě)作靈感。歡迎深入閱讀并收藏。

學(xué)習(xí)食品安全事件實(shí)體抽取模型分析

摘要：實(shí)體在非結(jié)構(gòu)化文本中不僅與詞匯具有密切的關(guān)系，而且是構(gòu)成短語(yǔ)的關(guān)鍵部分，特別是實(shí)體自身具有豐富的語(yǔ)義性，能夠?yàn)楹罄m(xù)語(yǔ)義知識(shí)的深度挖掘奠定基礎(chǔ)。為了更好地從食品安全事件文本中挖掘出更加有價(jià)值和意義的知識(shí)，結(jié)合LSTM-CRF模型，筆者提出了食品安全事件實(shí)體抽取的基本流程，并構(gòu)建了相應(yīng)的食品安全事件實(shí)體抽取模型。在選取領(lǐng)域食品安全事件文本上，構(gòu)建的食品安全事件實(shí)體抽取模型的調(diào)和平均值達(dá)到了相對(duì)可以接受的程度。基于深度學(xué)習(xí)的食品安全事件實(shí)體自動(dòng)抽取模型不僅為實(shí)體的抽取提供了策略，而且在一定程度上驗(yàn)證了深度學(xué)習(xí)性能的整體狀況。

關(guān)鍵詞：食品安全事件；實(shí)體；LSTM-CRF

1引言

食品安全涉及到千家萬(wàn)戶(hù)的切身利益，因此如何對(duì)食品安全進(jìn)行全面、細(xì)致且有效的監(jiān)管成為了控制食品安全事件發(fā)生的關(guān)鍵。通過(guò)構(gòu)建細(xì)顆粒度的食品安全事件知識(shí)庫(kù)是一種有效的方式和手段。在構(gòu)建食品安全事件知識(shí)庫(kù)的過(guò)程中，核心步驟是識(shí)別食品安全事件文本中的相關(guān)實(shí)體。因?yàn)閷?shí)體在文本當(dāng)中從形式上不僅是句法的有效構(gòu)成部分，而且從語(yǔ)義上看扮演了極為重要的語(yǔ)義角色。所以，筆者基于經(jīng)過(guò)人工標(biāo)注的大規(guī)模帶有命名實(shí)體的文本，結(jié)合BiLSTM-CRF這一深度模型，探究了食品安全事件中實(shí)體的識(shí)別問(wèn)題。隨著食品安全事件數(shù)據(jù)逐步的增加，目前針對(duì)食品安全事件文本進(jìn)行的實(shí)體抽取主要基于新聞文本數(shù)據(jù)展開(kāi)，主要通過(guò)機(jī)器學(xué)習(xí)的方法進(jìn)行。基于ICTCLAS對(duì)新聞文本的自動(dòng)分詞，首先，江美輝等界定了新聞文本中的時(shí)間、地點(diǎn)、主體、事件這四類(lèi)實(shí)體，并完成了對(duì)相應(yīng)實(shí)體的抽取[1]。其次，在抽取的實(shí)體基礎(chǔ)上構(gòu)建了實(shí)體關(guān)系網(wǎng)絡(luò)。最后，構(gòu)建了一體化的食品安全事件實(shí)體抽取和分析平臺(tái)。基于1500萬(wàn)字構(gòu)成的食品安全事件語(yǔ)料庫(kù)，王東波等首先獲取了食品安全事件實(shí)體的內(nèi)部和外部特征[2]，其次制定了相應(yīng)的抽取模板，并驗(yàn)證了模板的不同性能和特征。最后構(gòu)建了基于條件隨機(jī)場(chǎng)的食品安全事件實(shí)體抽取模型。許華等對(duì)醫(yī)療文本中實(shí)體的抽取與本研究相近[3]，該研究首先完成了對(duì)醫(yī)療語(yǔ)料的分詞，其次基于相應(yīng)的詞性標(biāo)記集，對(duì)文本進(jìn)行了詞性標(biāo)注，最后基于規(guī)則完成了對(duì)醫(yī)療文本中實(shí)體的抽取。基于統(tǒng)計(jì)獲取的多特征，吳毅完成了對(duì)食品安全事件當(dāng)中食品名稱(chēng)與誘因的實(shí)體的自動(dòng)識(shí)別[4]。隨著人工智能的興起，基于深度學(xué)習(xí)的實(shí)體抽取逐步發(fā)展起來(lái)。例如，通過(guò)觀察實(shí)體的分布特征，把深度信念網(wǎng)絡(luò)有效擴(kuò)展到神經(jīng)網(wǎng)絡(luò)上，馮蘊(yùn)天等結(jié)合具體的實(shí)體抽取特征和任務(wù)，給出了一種基于深度學(xué)習(xí)的實(shí)體抽取框架[5]。通過(guò)分析實(shí)體所構(gòu)成漢字的特征，利用深度學(xué)習(xí)模型可以自動(dòng)發(fā)掘?qū)嶓w字與字之間的語(yǔ)義組合特征，Liang等利用BILSTM-CRF深度學(xué)習(xí)模型[6]，發(fā)掘字與字之間的語(yǔ)義特征，構(gòu)建了基于深度學(xué)習(xí)的實(shí)體識(shí)別模型，并在公開(kāi)的數(shù)據(jù)集上獲得相對(duì)突出的成果。通過(guò)分析中文地名的分布特征，沈思等針對(duì)中文地名實(shí)體抽取的具體研究任務(wù)[7]，充分利用RNN這一深度學(xué)習(xí)模型，完成了對(duì)中文地名的自動(dòng)識(shí)別，并比較基于字與基于詞兩種策略的優(yōu)劣，通過(guò)具體的實(shí)驗(yàn)驗(yàn)證了基于字進(jìn)行實(shí)體識(shí)別的有效性。上述基于深度學(xué)習(xí)的實(shí)體識(shí)別方法和技術(shù)，為本文構(gòu)建基于深度學(xué)習(xí)模型的食品安全事件實(shí)體識(shí)別提供了直接而有效的借鑒。

2食品安全事件語(yǔ)料和模型介紹

2.1語(yǔ)料說(shuō)明

通過(guò)對(duì)2195篇食品安全事件語(yǔ)料的分析，筆者定義了四類(lèi)食品安全事件實(shí)體，即食品及食品安全事件實(shí)體、時(shí)間實(shí)體實(shí)體、人物及組織實(shí)體和地點(diǎn)實(shí)體，并通過(guò)人工的方式分別對(duì)以上四類(lèi)實(shí)體進(jìn)行了標(biāo)注。為了將語(yǔ)料轉(zhuǎn)化為可供神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和測(cè)試的格式，為了便于進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練，針對(duì)食品安全事件實(shí)體的內(nèi)容特征，定義了17位標(biāo)記集進(jìn)行標(biāo)注，并按照8∶2的比例將標(biāo)注后語(yǔ)料分為訓(xùn)練文本和測(cè)試文本，在基于BiLSTM-CRF模型上進(jìn)行自動(dòng)標(biāo)注測(cè)試。然后抽取了與“瘦肉精”有關(guān)的食品安全事件新聞?wù)Z料，在同樣的模型上對(duì)其進(jìn)行十折交叉訓(xùn)練。通過(guò)計(jì)算Precision（準(zhǔn)確率）、Recall（召回率）和F-measure（F值）對(duì)BiLSTM-CRF模型的識(shí)別效果進(jìn)行評(píng)價(jià)。本文定義了17位標(biāo)記集{B-f，I-f，E-f，S-f,B-l，I-l，E-l，S-l,B-t，I-t，E-t，S-t,B-p，I-p，E-p，S-p,O}，以字或詞為最小單位，對(duì)食品安全事件實(shí)體進(jìn)行標(biāo)記，各個(gè)標(biāo)記的含義見(jiàn)下表1。例如對(duì)于食品及食品安全事件實(shí)體中的“瘦肉精”，對(duì)應(yīng)的標(biāo)記是“S-f”；人物及組織實(shí)體中的“北京市工商局”，相應(yīng)的標(biāo)記為“北京市B-p”,“工商局E-p”

2.2模型介紹

在深度學(xué)習(xí)系列模型中，循環(huán)神經(jīng)網(wǎng)絡(luò)RecurrentNeuralNetwork（RNN）是一種高效的序列標(biāo)記人工神經(jīng)網(wǎng)絡(luò)[8]，該模型能夠有效解決反饋機(jī)制的問(wèn)題，有效解決某一時(shí)刻下反饋結(jié)果計(jì)算的問(wèn)題，具體隱藏層和輸出層的計(jì)算公式如下。ht=f(Uxt+WHt-1)（1）yt=g(Vht)（2）雖然循環(huán)神經(jīng)網(wǎng)絡(luò)解決了反饋機(jī)制的問(wèn)題，但是對(duì)于長(zhǎng)距離依賴(lài)的特征知識(shí)問(wèn)題，這一深度學(xué)習(xí)模型整體表現(xiàn)效果相對(duì)較差，其突出表現(xiàn)為會(huì)造成梯度消失和梯度爆炸問(wèn)題。在上述這一背景下，長(zhǎng)期短期記憶網(wǎng)絡(luò)LongShort-TermMemory（LSTM）這一深度學(xué)習(xí)模型被提了出來(lái)[9]。LSTM模型通過(guò)記憶單元和門(mén)能夠有效控制歷時(shí)信息的存在和消失，具體使用的門(mén)包括輸入控制門(mén)、輸出控制門(mén)和遺忘門(mén)，具體記憶單元的計(jì)算如下。通過(guò)三個(gè)門(mén)，LSTM有效解決了RNN難以保留較遠(yuǎn)距離信息的問(wèn)題，而B(niǎo)iLSTM（雙向LSTM）模型能夠有效控制正向和逆向的信息，從而實(shí)現(xiàn)存儲(chǔ)兩個(gè)方向的歷時(shí)信息的目的。雖然能夠有效保留相應(yīng)的歷時(shí)信息，但是當(dāng)LSTM輸出時(shí)會(huì)存在非常強(qiáng)的依賴(lài)關(guān)系，因此會(huì)影響模型的整體性能。在這一背景下，LSTM和CRF組合模型被提了出來(lái)，這一組合模型不僅能夠有效考慮分詞、詞性、實(shí)體等上下文的信息和知識(shí)特征，而且在輸出時(shí)CRF還能有效解決輸出獨(dú)立標(biāo)簽之間的依賴(lài)問(wèn)題。為了確保面向海量食品安全事件抽取實(shí)體的整體性能，在具體實(shí)體抽取的過(guò)程中，使用了BiLSTM-CRF模型進(jìn)行實(shí)體識(shí)別的實(shí)驗(yàn)[10]。根據(jù)對(duì)深度學(xué)習(xí)系列模型識(shí)別效果的評(píng)價(jià)指標(biāo)要求，本文對(duì)基于BiLSTM-CRF模型的食品安全事件實(shí)體自動(dòng)識(shí)別性能的評(píng)價(jià)主要通過(guò)三個(gè)指標(biāo)進(jìn)行衡量：準(zhǔn)確率（Precision）、召回率（Recall）、F值（F-measure）。具體計(jì)算公式如下。式中，A代表正確識(shí)別出的食品安全事件實(shí)體個(gè)數(shù)，B代表錯(cuò)誤識(shí)別出的食品安全事件實(shí)體個(gè)數(shù)，C代表未識(shí)別出來(lái)的食品安全事件實(shí)體個(gè)數(shù)。其中F值能夠有效均衡精準(zhǔn)率和召回率之間的關(guān)系。

3實(shí)體抽取結(jié)果分析

本文基于人工標(biāo)注的2195篇食品安全事件語(yǔ)料，構(gòu)建了包含164萬(wàn)行tokens的深度學(xué)習(xí)語(yǔ)料庫(kù)。在具體的實(shí)驗(yàn)中將語(yǔ)料庫(kù)按照8∶2的比例分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行實(shí)驗(yàn)。在具體實(shí)驗(yàn)過(guò)程中只使用了食品安全實(shí)體的字為基本單位。在具體實(shí)驗(yàn)過(guò)程中所使用的參數(shù)信息為：隱藏單元維度設(shè)置為300；batchsize的值設(shè)定為64；迭代次數(shù)界定為200；BiLSTM所使用的層數(shù)為3；earlystop界定為了100；特征數(shù)量設(shè)定成了6，而學(xué)習(xí)率的值為0.002。由于在基于深度學(xué)習(xí)訓(xùn)練實(shí)體識(shí)別過(guò)程中需要使用到GPU，因此對(duì)本文的實(shí)驗(yàn)環(huán)境介紹如下，CPU：Intel(R)Core(TM)i5-4590CPU@3.30GHz內(nèi)存:16GBDDR4；GPU：NVIDIAQuadroK1200顯存：4GBGDDR5；操作系統(tǒng)：ubuntu16.04。服務(wù)器上高性能的GPU可以支持大規(guī)模的并行運(yùn)算。基于BiLSTM-CRF模型的實(shí)體識(shí)別結(jié)果如表2所示。在大規(guī)模語(yǔ)料上，本文得到的所有食品安全事件文本當(dāng)中識(shí)別的結(jié)果，在調(diào)和平均值上達(dá)到了65.12%，僅從字的角度來(lái)看，獲得的模型整體性能較為合理。在具體訓(xùn)練過(guò)程中，Trainloss總體趨勢(shì)如圖1所示。為了更進(jìn)一步的探究模型性能，并在小規(guī)模語(yǔ)料和主題比較一致的語(yǔ)料上探究模型的性能。本文從現(xiàn)有語(yǔ)料中以瘦肉精為主題抽取了包含9000行的tokens深度學(xué)習(xí)語(yǔ)料在此模型中進(jìn)行十折交叉訓(xùn)練，基于BiLSTM-CRF模型的在主題為瘦肉精的食品安全事件實(shí)體識(shí)別十折交叉實(shí)驗(yàn)結(jié)果如表3所示。從表3可以看出，在所選擇的食品安全事件主題上最優(yōu)的模型性能達(dá)到了90.11%，整體上達(dá)到了實(shí)用的程度，該模型的精準(zhǔn)率達(dá)到了95.35%，這一組模型的性能指標(biāo)充分說(shuō)明了深度學(xué)習(xí)與條件隨機(jī)場(chǎng)組合模型的突出的性能。但是從表3可以看出，個(gè)別模型的性能并不是太突出，究其原因，是所選語(yǔ)料的規(guī)模過(guò)小，因?yàn)樵谛∫?guī)模的語(yǔ)料中，語(yǔ)料中實(shí)體的分布會(huì)存在不均衡和偏頗的問(wèn)題。

4結(jié)語(yǔ)

食品安全事件中的實(shí)體不僅具有多維度的語(yǔ)義知識(shí)，而且是構(gòu)成應(yīng)對(duì)食品安全事件應(yīng)對(duì)策略的重要知識(shí)單元，食品安全事件中實(shí)體識(shí)別的精準(zhǔn)度對(duì)整個(gè)食品安全事件的知識(shí)挖掘具有重要的意義和價(jià)值。筆者在所選取的特定語(yǔ)料文本上，構(gòu)建了基于深度學(xué)習(xí)的食品安全事件實(shí)體模型，并對(duì)該模型的整體性能進(jìn)行了3個(gè)指標(biāo)上的分析。在后續(xù)的研究中，應(yīng)適當(dāng)擴(kuò)展訓(xùn)練模型的語(yǔ)料規(guī)模，并增加新的特征以提高整個(gè)模型的性能。

參考文獻(xiàn)

[1]江美輝,安海忠,高湘昀,等.基于復(fù)雜網(wǎng)絡(luò)的食品安全事件新聞文本可視化及分析[J].情報(bào)雜志,2015(12):121-127.

[2]王東波,吳毅,葉文豪,等.多特征知識(shí)下的食品安全事件實(shí)體抽取研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2017,1(3):54-61.

[3]許華.基于有監(jiān)督學(xué)習(xí)的醫(yī)療實(shí)體抽取方法研究[D].武漢:武漢科技大學(xué),2016:23.

[4]吳毅.基于復(fù)雜特征知識(shí)的食品安全事件多類(lèi)型命名實(shí)體抽取研究[D].南京:南京農(nóng)業(yè)大學(xué),2016:45.

[5]馮蘊(yùn)天,張宏軍,郝文寧.面向軍事文本的命名實(shí)體識(shí)別[J].計(jì)算機(jī)科學(xué),2015,42(7):15-18.

[7]沈思,朱丹浩.基于深度學(xué)習(xí)的中文地名識(shí)別研究[J].北京理工大學(xué)學(xué)報(bào),2017,37(11):1150-1155.

作者：沈思胡業(yè)勛單位：南京理工大學(xué)

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

學(xué)習(xí)食品安全事件實(shí)體抽取模型分析范文

擴(kuò)展閱讀

推薦期刊

雙語(yǔ)學(xué)習(xí)

學(xué)習(xí)導(dǎo)報(bào)

俄語(yǔ)學(xué)習(xí)

德語(yǔ)學(xué)習(xí)

精品推薦