在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 數據挖掘下的臭氧發生器故障檢測方法范文

數據挖掘下的臭氧發生器故障檢測方法范文

本站小編為你精心準備了數據挖掘下的臭氧發生器故障檢測方法參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

數據挖掘下的臭氧發生器故障檢測方法

摘要:將臭氧發生器系統做為研究對象,通過數據挖掘技術對系統故障進行檢測。使用數據預處理技術對數據集進行整理工作,并通過數據特征分析對有效數據進行篩選,最后利用兩種數據模型分別對系統故障進行檢測。結果表明基于數據挖掘的臭氧發生器故障檢測方法可以準確檢測系統故障。

關鍵詞:數據挖掘;臭氧發生器;故障檢測;K均值聚類算法;線性回歸

隨著人工智能技術的發展和硬件計算能力的提升,基于數據建模的工業自動化方案可行性越來越高,利用數據挖掘技術解決工業難題已成為一種趨勢。對于國內技術較為落后的臭氧發生器系統而言,若能找到隱藏于眾多數據中的潛在聯系并加以利用,將可大大提高生產效率。本文通過對臭氧發生器歷史數據進行大量的數據挖掘工作,以對系統故障進行檢測。

1數據預處理

數據預處理[1](DataPreprocessing)是指在數據挖掘以前對數據進行的一些處理。現實環境中的數據大體上都是不完整、不一致的臟數據,無法直接進行數據挖掘,或挖掘結果不盡如人意。為了提高數據挖掘質量,發展出了數據預處理技術,其有多種方法,包括數據清理、數據集成、數據變換等。臭氧發生器數據主要包含水路、氣路的傳感器數據和臭氧發生器電源及放電室的相關數據,由于數據來源于較為復雜的工業現場,海量數據中可能會存在測量儀器異常及通信線路干擾等產生的異常數據,這些異常數據與在臭氧發生器正常運行狀態下映射關系是不同的。并且在工業現場臭氧發生器設備大部分時間均在正常情況下運行,因此會產生大量重復數據,這些數據我們統稱為冗余數據,如果不將這些數據進行刪除,會顯著降低數據挖掘速度以及模型的精準度,因此在對數據進行挖掘前應根據數據集特征進行合理的預處理。本文中所用臭氧發生器系統數據均來源于河南省某公司的同一設備,所用數據集選取的時間段為2018年3月上旬至11月下旬,去除設備斷電期間,存在有效數據的天數共210天,數據總大小約為2.1GB(csv格式),在這些數據中存在眾多重復數據,為了提高模型訓練速度,首先將重復數據刪除。去除重復數據后,數據量將大大減少,此時進一步刪除存在異常的數據。在確定異常數據時,需要利用一定的專家建議去對異常數據進行鎖定。通過臭氧發生器系統的相關知識與經驗,找到對模型起到負面作用的數據并進行刪除。最后由于存在臭氧發生器系統上電,但高頻電源并未起振的情況,故對功率設置百分比小于80%(功率設置值小于4)的數據不進行使用。經過上述操作后可知每日設備數據量大多數相近,但也有一些時間段數據量顯著低于其他時間,經過分析,該時間段服務器程序為關閉狀態,導致并未儲存當天的全部數據,但是由于每條數據均具有時間戳作為索引,對之后的數據特征分析和模型訓練不會產生影響。并且經過去重復值操作后的數據減少比例最高,去除異常值之后的數據量變化較不明顯,由此表明數據集中重復數據較多,而異常數據較為稀少。而在去除未起振值后有兩個時間段數據量幾乎降至為零,經過查看工作日志發現該段時間設備出現硬件損壞,上傳的數據多為調試時的未起振數據。

2數據特征分析

數據特征一般可從數據集自身獲取,也可通過外部數據輔助得出,兩種方式對數據建模均有很大幫助。

2.1數據集內部特征分析

為了對數據有初步的了解,先對數據自身的特征進行詳細分析。當前數據可分為傳感器數據和高頻電源、放電室數據,兩類數據的類型不同,變化方式不同,因此數據特征也有所不同,所以對兩類數據也使用了不同方法進行分析。其中對傳感器數據的離散程度[2]進行了分析,將某日數據中每個參數的唯一值數量進行了統計,統計結果如圖1所示。已知當日數據經過預處理后剩余數據總數為18746條,從圖1可看出傳感器數據中臭氧濃度數據的變化范圍最大,共有2261條不同數據,占總數據的12.06%。并且冷卻水壓力、氧氣壓力和功率設定三個數據均只有兩個不同數值,通過查看具體數值發現兩個數值之差幾乎為零,由此可知去除異常時段后,剩下時間的冷卻水壓力和氧氣壓力數值十分穩定。并經過對比分析功率設定、冷卻水壓力、氧氣壓力數據集后發現它們不存在相互對應關系,由此確定這三項數據集中度過高,不宜加入訓練模型之中,故舍棄該三項數據。接著對某日高頻電源與放電室數據進行分析,已知該類數據多為設定值,多數情況下該類數據不會發生改變,因此不需對數據進行唯一值統計。該類設定值數據雖然變化較少,但是稍微調整就會對眾多參數產生影響,因此可對高頻電源與放電室數據進行相關性分析。由于固有諧振頻率與傳感器數據、高頻電源、放電室數據均有聯系,因此計算出所有數據與固有諧振頻率的Pearson相關系數[3],其結果如表1。表1統計了所有參數與固有諧振頻率的Pearson相關系數,Pearson相關系數由0到1表示相關性的弱到強,其中0至0.2表示數據之間存在極弱相關性,0.2至0.4為弱相關,0.4至0.6為中等相關,0.6至0.8為強相關,0.8至1為極強相關。通過上表可知冷卻水流量、氧氣露點溫度與固有諧振頻率為極弱相關,因此在訓練模型時刪除這些數據。給定頻率、臭氧濃度、功率設置三個參數對臭氧發生器固有諧振頻率影響較大,其他參數雖然與固有諧振頻率的相關系數不高,但是也有一定的依賴關系,通過訓練數據模型將可最大化利用這些數據,從而更加精準地預測固有諧振頻率。

2.2使用外部數據的特征分析

為了更進一步了解臭氧發生器系統數據特征,將外部因素對整個臭氧發生器系統數據的影響進行了分析。經過對臭氧發生器所在環境分析發現:臭氧發生器所處地區的氣溫與系統狀態也存在關系。因此對當地的氣溫數據與臭氧發生器中的溫度類數據進行了比較,其中對溫度變化情況較多的三月氣溫數據以及各月的平均氣溫數據進行了以下分析:與臭氧發生器系統中外冷卻水溫度、冷卻水溫度、氧氣溫度的數據對比曲線,第二列為與每月平均氣溫數據的對比曲線,本地氣溫對臭氧發生器水路溫度影響較小,但氧氣溫度會和氣溫發生相同趨勢的變化。而且還能看出外冷卻水溫度與冷卻水溫度之間也存在相同的情況,因此可將本地的氣溫數據加入數據集中,在之后的訓練模型過程中用于提高數據模型精度。

3故障檢測

可將系統故障分為管路故障和頻率不匹配故障兩類,其中管路故障不存在評定指標(即數據集不存在標簽),需要使用非監督學習中的聚類算法進行故障檢測;頻率不匹配故障則可以使用固有諧振頻率作為標簽,通過監督學習查找眾多參數與固有諧振頻率之間的映射關系。根據臭氧發生器自身特性可知,管路故障由自身內在原因引起,高頻電源和放電室數據中除輸出功率可影響水路溫度以外,其他參數對管路不起任何作用,但固有諧振頻率卻受管路中大多數據影響,因此為了減少無關數據對兩類數據模型的影響,分別選用不同的數據集合進行數據挖掘。通過對臭氧發生器數據進行特征分析,將數據模型所用數據進行了大致篩選,兩類故障所用數據進行如圖3的劃分。將不同模型所用數據進行劃分之后,即可使用相關數據進行故障診斷及功率控制工作。

3.1基于聚類模型的管路故障檢測

聚類算法是一種常用的無監督學習算法,可在數據集標簽未知的情況下尋找眾多數據間不易察覺的關系及規律。本文通過K-means算法[4]實現聚類,K-means算法是一種基于距離的聚類算法,通過距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度越大。該算法認為“簇”是由距離靠近的對象組合而成,因此把簇分得越緊湊越獨立作為最終目標。算法的核心是通過迭代來尋找K個簇的劃分方案,使得用這K個簇代表各簇樣本時所得的總體誤差最小,K-means算法計算誤差采用的代價函數為最小誤差平方和[5],其代價函數可表示為:式中Uc(i)表示第i個聚類的均值。各簇內的樣本越相似,其與該類簇的誤差平方越小,對所有類所得的誤差平方和求和,即可驗證分為K類時是否最優。但是此代價函數無法通過解析的方法使誤差最小化,因此需要加入迭代過程。在模型訓練過程中由于所選數據集太過龐大,但是故障數據較少,并且管路故障通常會在較長時間內逐漸產生,且越來越嚴重,因此對每天只采用其中3項數據對原始數據集進行稀釋[6],經過對數據集進行K=2、3、4、5四種情況聚類后,其結果如圖4所示。K-means算法中的參數為簇數2至5,并發數為4,迭代次數為500。當簇數K=2時,圓點代表的數據遠遠大于下三角代表的數據,圓點數據占總數據95%以上,并且它們之間有較為明顯的分界線;當K=3時,K-means模型將K=2時的大比重數據分為了兩類,并且可看出它們之間的界限較為模糊;當K=4時,模型不僅將K=2時的大比重數據進行了分割,也將小比例數據分成了兩個簇;而K=5時,只是將大比重數據再進行了一次三類劃分。通過以上分析,當K=2時數據劃分過于簡單,因此不適合發現更多的故障數據;K=5時對大占比數據進行劃分的分界線難以確定。通過嚴謹分析決定將將管路故障分為3類最為妥當。最后根據對每個簇數據分析結果及專家解釋將故障分為氧氣不足、氧氣溫度異常、冷卻水失效3類,其在臭氧發生器系統狀態上的直接體現如下:1)氧氣不足:氧氣壓力降低,氧氣流量突降,此類故障一般在短期內突然出現,在K=4時的圖表中以上三角顯示;2)氧氣溫度異常:氧氣溫度與平均值相差較多,一般出現在極端天氣,在K=4時的圖表中以五角星顯示;3)冷卻水失效:冷卻水溫度、外冷卻水溫度基本相同,并且高于平均值,此類故障一般發生在較熱天氣,導致冷卻水失去冷卻效果,在K=4時的圖表中以下三角顯示。最后以圓點表示的數據為正常數據,但是通過圖表可看出該類數據集中度較低。通過分析發現,主要原因為臭氧發生器水路過濾裝置會在使用過程中逐漸被雜質堵塞,從而導致冷卻水壓力緩慢升高、冷卻水流量降低。由于此問題較易被發現,且周期較長,不將此問題歸為故障。

3.2基于線性回歸模型的頻率不匹配故障檢測

已知頻率不匹配故障是所有故障中對臭氧產量影響最為嚴重的故障,頻率不匹配將大大降低工作效率。造成該故障的因素眾多,很難通過人力觀察找到解決辦法。目前已知該故障與眾多參數具有相關性,并且通過當前設定功率與電流大小即可知頻率是否匹配。預測固有諧振頻率的大小是檢測頻率不匹配故障的首要任務,本文使用基于監督學習的數據模型進行故障檢測。相比較于無監督學習在無標簽下進行訓練,監督學習則依賴于標簽才能訓練出一個數據模型。正是因為標簽的存在,監督學習不再需要通過計算各個數據間的“距離度量”來查找數據關系,而是通過“性能度量”來表現眾多數據與標簽的相關聯系,再通過“性能度量”作為參考量逐漸訓練出最符合數據關系的模型。對于本小節所進行的頻率不匹配故障檢測,線性回歸模型能夠完全發揮作用。在進行線性回歸學習之前,需要對數據集進行訓練集和測試集的劃分。劃分訓練集和測試集是由于在線性回歸模型訓練過程中會出現過擬合[7]現象。目前常用的劃分方法有留出法、k折交叉驗證法[8]、自助法三種。本文使用最為常用的k折交叉驗證方法,并將數據集分為五折進行交叉驗證。通過五折交叉驗證后基于線性回歸模型進行的固有諧振頻率預測較為準確,預測值變化趨勢同真實值基本一致,因此該預測結果可用于對頻率不匹配故障的檢測之中。由于臭氧發生器能夠通過眾多參數預測固有諧振頻率,因此可通過各參數計算超前值預測固有諧振頻率即將變化的趨勢。超前值表示依照當前情況繼續發展數據將會達到的數值,在數據挖掘中通常使用計算超前值的方法作為時間序列預測的主要手段。本文使用較為常見的累計誤差作為計算方法,計算公式如下:式中m為參數編號,Dm為參數m的超前值,x0為m參數當前數值,x1為上一次數值,數值x0至x100分別為該數值的最新數值到之前的100個數值,Pm為參數m的比例系數。該公式可計算出每個參數的超前值,之后通過超前值進行超前固有諧振頻率預測,并通過以下方法進行故障檢測:通過圖5可知,在頻率不匹配故障檢測的過程中,主要是將各參數的超前值代入已訓練好的線性回歸模型,從而預測出超前固有諧振頻率,然后將預測的固有頻率與當前的固有諧振頻率進行對比,如果預測值與當前值差距較大,說明諧振頻率按當前情況繼續發展下去將會發生頻率不匹配故障。

4結束語

本文方法能夠準確、有效對臭氧發生器系統故障進行檢測,不僅節省了人工成本,也保證了系統的安全與可靠。

參考文獻

[2]朱田華,周軍,劉旭華.一種基于數據分布特征的模糊規則提取[J].遼寧工業大學學報(自然科學版),2013,33(2):83-85

[3]張建勇,高冉,胡駿,等.灰色關聯度和Pearson相關系數的應用比較[J].赤峰學院學報(自然科學版),2014(21):1-2

[4]宋喜忠.基于K-Means和粗糙集神經網絡的節點故障診斷[J].信陽師范學院學報(自然科學版),2014(2):292-295

[5]柴志剛,侯豪峰,李愛東.基于誤差平方和極小化的多模型組合預測研究[J].中國水運:下半月,2008,8(11):33-34

作者:董哲 趙磊 翟維楓 劉蕾 單位:北方工業大學電氣與控制工程學院

主站蜘蛛池模板: 五月婷婷伊人 | 亚洲欧美一区二区三区国产精品 | 亚洲综合丁香 | 四虎4545www国产精品 | 六月丁香啪啪 | 亚洲一区不卡 | 久热re这里只有精品视频 | 久久综合五月开心婷婷深深爱 | 性网站在线 | 一区二区三区高清不卡 | 综合一区| 国产精品久久免费 | 午夜剧场黄 | 不卡久久| 综合久久精品 | 亚洲欧美日本综合 | 四虎永久免费在线观看 | 国产a一级毛片午夜剧场14 | 亚洲人成人毛片无遮挡 | 综合色桃花久久亚洲 | 中文字幕久久久久 | 在线免费观看黄视频 | 亚洲高清中文字幕综合网 | 日本精品久久久久久久 | 中文精品久久久久中文 | 九九免费电影 | 免费视频99 | 欧美成在线观看 | 波多野结衣高清在线 | 亚洲不卡av不卡一区二区 | 欧美福利在线视频 | 欧美国产成人一区二区三区 | 色国产视频 | www.五月| 三妻四妾高清在线观看 | 亚洲自拍第二页 | 精品久久久久久中文字幕欧美 | 羞羞网页| 日韩欧美亚洲综合一区二区 | 永久免费观看视频 | 男人的天堂在线观看 |