虚无的焦点,小视频黄,综合久久精品

本站小編為你精心準備了電力文本挖掘技術(shù)研究參考范文，愿這些范文能點燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

電力文本挖掘技術(shù)研究

【關(guān)鍵詞】電力文本；文本挖掘；信息檢索；機器學(xué)習(xí)

1引言

當(dāng)前，大數(shù)據(jù)云計算研究的成熟與發(fā)展推動著電子化自動化技術(shù)的產(chǎn)業(yè)應(yīng)用。智能電網(wǎng)的管理、服務(wù)、監(jiān)測、運行、診斷、營銷、評估等方方面面的工作開始獲得一體化聯(lián)網(wǎng)管理模式。信息的高度集中使得大量的非結(jié)構(gòu)化關(guān)鍵性數(shù)據(jù)與內(nèi)容存在于各類形式以及多種來源的文本文件中。井噴式增長的電力大數(shù)據(jù)對于智能電網(wǎng)的研究意義已獲得業(yè)內(nèi)普遍認可。它既是智能電網(wǎng)發(fā)展的前沿領(lǐng)域，也是關(guān)鍵技術(shù)基礎(chǔ)。作為資源密集型的電網(wǎng)企業(yè)，大數(shù)據(jù)資源的科學(xué)統(tǒng)籌管理與綜合分析是關(guān)鍵任務(wù)之一。電力文本數(shù)據(jù)具有的數(shù)據(jù)體量大、類型豐富、信息密度低、更新速度快的特征。其中，數(shù)據(jù)體量大，指24小時全時段無間歇運作的電力設(shè)備系統(tǒng)不斷產(chǎn)生數(shù)目龐大的數(shù)據(jù)；類型豐富，指電力數(shù)據(jù)描述電力系統(tǒng)運行的方方面面包括設(shè)備運行監(jiān)測診斷維護，電網(wǎng)公司運營評估，客戶相關(guān)信息報告，呈現(xiàn)數(shù)據(jù)形式多樣，數(shù)據(jù)來源多樣，數(shù)據(jù)內(nèi)容多樣的現(xiàn)象；價值密度低，指異常數(shù)據(jù)占比低，但數(shù)據(jù)價值高。因此采用文本挖掘技術(shù)挖掘電力文本具有很高的應(yīng)用意義。目前，文本挖掘技術(shù)主要被應(yīng)用于醫(yī)學(xué)信息、生物學(xué)、社交媒體等領(lǐng)域，而在電力行業(yè)內(nèi)則停留于研究實驗階段。人工智能及其子方向自然語言處理理論與技術(shù)的發(fā)展為電力文本挖掘的實現(xiàn)提供先決條件。與此同時，電力企業(yè)長期運營所積累的大量數(shù)據(jù)為電力文本挖掘的研究提供數(shù)據(jù)保障。電力行業(yè)經(jīng)過長期發(fā)展，在數(shù)據(jù)管理分類，規(guī)程規(guī)章，數(shù)據(jù)體制方面有較高的完整性和統(tǒng)一性。上述三點為未來完全實現(xiàn)對電力文本的自動化知識與關(guān)鍵內(nèi)容獲取具有可行性以及技術(shù)保障。根據(jù)電力文本挖掘技術(shù)目前的研究探索與實驗，本文將就電力文本挖掘技術(shù)的研究成果與初期應(yīng)用探索展開討論。重點就文本挖掘技術(shù)及其電力領(lǐng)域應(yīng)用、研究現(xiàn)狀、未來工作與挑戰(zhàn)做簡要分析。

2文本挖掘技術(shù)

文本挖掘作為自然語言處理與數(shù)據(jù)挖掘的交叉應(yīng)用，該概念于20世紀80年代中期被正式提出，至今以經(jīng)過30多年的發(fā)展。隨著大數(shù)據(jù)時代的到來，該項技術(shù)重新受到關(guān)注與應(yīng)用。文本挖掘的主要任務(wù)是從大量現(xiàn)有非結(jié)構(gòu)化文本數(shù)據(jù)中挖掘未知的、價值高的、高可用的結(jié)構(gòu)化知識，并應(yīng)用于信息管理、組織、歸納、二次利用。文本挖掘技術(shù)主要涉及三方面的內(nèi)容。如圖1所示，文本挖掘的發(fā)展主要基于深度學(xué)習(xí)、機器學(xué)習(xí)、自然語言處理、概率統(tǒng)計為理論依據(jù)。換言之，文本挖掘是上述理論的具體任務(wù)。技術(shù)基礎(chǔ)部分主要包含文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理。在此基礎(chǔ)之上主要應(yīng)用信息訪問和知識發(fā)現(xiàn)，其中信息訪問具體涉及信息檢索、信息瀏覽、信息過濾、信息報告，知識發(fā)現(xiàn)則涉及數(shù)據(jù)分析、數(shù)據(jù)預(yù)測。具體應(yīng)用領(lǐng)域主要覆蓋于醫(yī)學(xué)生物以及社交媒體信息的研究，如醫(yī)學(xué)知識圖譜構(gòu)建，電子病歷自動處理，文獻自動閱讀、用戶行為分析、情感分析、話題熱度監(jiān)測及分析等方面的工作。

3文本挖掘

3.1文本挖掘難點

文本挖掘的難點主要來源于兩個方面——文本數(shù)據(jù)和應(yīng)用領(lǐng)域。文本作為一種非結(jié)構(gòu)數(shù)據(jù)，本身存在諸多難點需要克服。文本作為語言的一種表示形式以及種類多樣，不同語種的語法不同，無統(tǒng)一且機器可理解的形式與規(guī)則。第二，從語言學(xué)的角度看，文本本身存在諸多語言學(xué)現(xiàn)象，使得理解過程中容易出現(xiàn)歧義和模糊，為機器理解增添難度。第三，缺乏高可用且評估性能高的數(shù)據(jù)集。除了針對社交類、新聞類等開放性文本以外，文本挖掘技術(shù)的價值更是應(yīng)用于生物醫(yī)學(xué)、教育教學(xué)、電力電網(wǎng)等社會或生產(chǎn)領(lǐng)域中。無論是開放性文本或是領(lǐng)域性文本，都需要結(jié)合應(yīng)用場景和所用語言做出針對性的、準確的、高效的文本挖掘工具。從宏觀上看，這類工具的魯棒性較差，效果欠佳，目前尚無解決方案。由于電力行業(yè)的文本一般是人工書寫完成，存在一定數(shù)量的書寫錯誤，語法錯誤、歧義錯誤等。因此，在文本挖掘過程中，容錯性以及錯誤理解性也是數(shù)據(jù)處理人員需要優(yōu)化解決的一項挑戰(zhàn)。除此之外，領(lǐng)域性文本也包含了大量表格型數(shù)據(jù)。因此，針對這類數(shù)據(jù)的挖掘也是文本挖掘中的一項重要子任務(wù)。

3.2電力文本挖掘方法

3.2.1電力文本挖掘預(yù)處理與一般的文本挖掘不同，電力文本挖掘在考慮確定問題需求的初始階段時，需要就文本類型做基于電力專業(yè)知識的內(nèi)容分析。電力行業(yè)涉及的文本類型豐富，來自不同部門、不同崗位、不同設(shè)備、不同領(lǐng)導(dǎo)層次等等，且這一特點具體體現(xiàn)在文本挖掘的各項子任務(wù)中。如命名實體識別（NamedEntityRecognition,NER），是實現(xiàn)文本分類，自動評估、自動篩檢的基礎(chǔ)任務(wù)。其具體目標是從電力數(shù)據(jù)文本中識別出關(guān)鍵的指定性內(nèi)容，如工程屬性，設(shè)備名稱、運行數(shù)據(jù)等，從電力專業(yè)的角度實現(xiàn)關(guān)鍵信息的抽取和分類。電力文本常以非結(jié)構(gòu)化的自由數(shù)據(jù)形式存在，因此在進行文本挖掘的初始準備階段，需要完成文本數(shù)據(jù)預(yù)處理以及文本表示的工作，之后才能進行文本挖掘工作。文本預(yù)處理的具體工作一般包含中文分詞、取停用詞、詞性標注等。除此之外，預(yù)處理工作中一項重要子任務(wù)是構(gòu)建電力文本問題語料庫并在此基礎(chǔ)之上建立領(lǐng)域性字典。其中在語料庫數(shù)據(jù)采集上，需要盡可能保證數(shù)據(jù)集的平衡性和多樣性。換言之，我們需要盡量從電力部門現(xiàn)有的各類文本數(shù)據(jù)中選取，如電力設(shè)備的運行、維護、測試報告或日志，供電局現(xiàn)場維修記錄單、工單，電力行業(yè)工作守則、指南、標準等等。在此基礎(chǔ)之上，結(jié)合現(xiàn)有的通用字典，在優(yōu)先完成去除停用詞的前提下，采用基于統(tǒng)計的分詞方法，如隱馬爾科夫鏈或是條件隨機場模型等對文本做分詞處理，并根據(jù)詞頻做排序，之后還需要電力專業(yè)人員做人工校正并進行補充更新，以保證字典的科學(xué)性、準確性和及時性，為之后的工作提供數(shù)據(jù)保障和資源支持。

3.2.2電力文本的表示方法除了高效準確平衡的數(shù)據(jù)集之外，在被廣泛應(yīng)用的深度學(xué)習(xí)模型算法中，文本數(shù)據(jù)的計算機可理解化表示是電力文本數(shù)據(jù)挖掘過程中需要解決的另一個問題。常用的表示方法有空間向量模型、嵌入式向量模型、正則表達式、樹結(jié)構(gòu)模型等。不同模型的側(cè)重點有區(qū)別，需要基于任務(wù)目標合理選擇。如前文所提到的，常用的兩類向量表示方法中空間向量模型主要關(guān)注句子的整體內(nèi)容而忽略句中詞語的順序；嵌入式向量模型則關(guān)注于句子中的關(guān)鍵信息的內(nèi)涵以及優(yōu)先級排序。目前，處理這類問題的主流方法是詞袋方法以及Word2Vec方法。基于向量空間模型的詞袋方法簡單且可操作性強，但是以升高維度和忽略上下文內(nèi)容為代價。而Word2Vec則是由目前被廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得的，因此，相較于詞袋方法，具有詞向量緯度的特點，且通過計算向量相似度的手段在訓(xùn)練階段即考慮上下文對模型以及最終預(yù)測結(jié)果的影響。Doc2Vec則是基于Word2Vec發(fā)展起來的方法，旨在實現(xiàn)抽取主要內(nèi)容實現(xiàn)文本摘要的工作。

3.3命名實體識別以及關(guān)系抽取

廣譜型的命名實體識別旨在識別出現(xiàn)在文本數(shù)據(jù)中的人名、地名、機構(gòu)名、時間、日期、貨幣和百分比，而領(lǐng)域型的命名實體識別則更加注重研究、設(shè)備運營以及生產(chǎn)領(lǐng)域文本數(shù)據(jù)的類別性的關(guān)鍵實體內(nèi)容抽取工作，也是實現(xiàn)構(gòu)建電力系統(tǒng)知識圖譜電力文本數(shù)據(jù)分類、關(guān)系抽取、文本摘要的首要任務(wù)之一，包括前文提及的文本數(shù)據(jù)預(yù)處理，基于專業(yè)知識的文本數(shù)據(jù)分析、模型訓(xùn)練、測試等子任務(wù)。針對電力文本的數(shù)目多、體量大、內(nèi)容雜的特點，命名實體識別方法有利于快速有效的實現(xiàn)句子關(guān)鍵信息的識別以及分類，為之后的命名實體間的關(guān)系抽取提供前提保障。如圖2所示，命名實體識別的步驟主要包括數(shù)據(jù)清洗、預(yù)處理、模型訓(xùn)練以及實體識別，其中還包含非常重要的一步，數(shù)據(jù)標注。數(shù)據(jù)標注的質(zhì)量一定程度上影響著實體識別結(jié)果的準確性。常用的命名實體識別工作是使用條件隨機場以及深度學(xué)習(xí)的方法。關(guān)系抽取一般使用基于規(guī)則、監(jiān)督學(xué)習(xí)、半監(jiān)督以及無監(jiān)督學(xué)習(xí)。基于規(guī)則的方法是從語法規(guī)則以及語法現(xiàn)象的角度尋找主謂賓、suchas、including等語言結(jié)構(gòu)。此類方法準確度高，適合垂直場景，但其缺點也很明顯，信息覆蓋率低、人力成本高、設(shè)計難度高使得這類方法無法在電力文本數(shù)據(jù)這類領(lǐng)域性文本中推廣。而監(jiān)督學(xué)習(xí)提高了模型的魯棒性，但前期的準備工作需要專業(yè)性知識的介入，如定義關(guān)系和實體類型，并準備好已標注實體以及關(guān)系的訓(xùn)練數(shù)據(jù)。接下來則是提取特征，并對特征做分類。特征包括此特征和位置特征。上述方法中的數(shù)據(jù)標注需要耗費大量的人力物力，且對標注人員的專業(yè)性要求高。但由于其較好的預(yù)測效果使之依然被應(yīng)用在很多工作中。而半監(jiān)督學(xué)習(xí)一定程度上解決了監(jiān)督學(xué)習(xí)的這一缺點，它只需要少量的標注語料以及大量未被標注的預(yù)料數(shù)據(jù)，逐漸獲得在生產(chǎn)中獲得應(yīng)用。

4結(jié)語

文本挖掘是集統(tǒng)計學(xué)、數(shù)據(jù)分析處理、機器學(xué)習(xí)、深度學(xué)習(xí)、語言學(xué)、數(shù)據(jù)庫技術(shù)等多學(xué)科于一體的新興手段。該項技術(shù)的發(fā)展使大量隱藏于文本數(shù)據(jù)背后的關(guān)鍵信息和知識被人們快速獲取。未來的研究方向中也將朝著電力運維中文知識圖譜的構(gòu)建工作中，幫助快速高效的做出設(shè)備診斷。在電力生產(chǎn)中的應(yīng)用將有利于高效準確地獲取文本數(shù)據(jù)中的關(guān)鍵信息，尤其在電力設(shè)備運營維護以及現(xiàn)場作業(yè)方面發(fā)揮重要作用，也有利于推動電力企業(yè)信息電子化的進程以及智能電網(wǎng)的發(fā)展，具有極大的應(yīng)用和研究價值。

參考文獻

[7]楊錦鋒,于秋濱,關(guān)毅,蔣志鵬.電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J].自動化學(xué)報,2014,40(08):1537-1562.

[9]鄒濤.一種電子產(chǎn)品領(lǐng)域命名實體識別方法研究[D].西安電子科技大學(xué),2010.

作者：白開峰楊波魏軍單位：國網(wǎng)陜西省電力公司西安供電公司

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

電力文本挖掘技術(shù)研究范文

擴展閱讀

推薦期刊

電力檔案

寧夏電力

安徽電力

國際電力

精品推薦