本站小編為你精心準備了配電網設備狀態的文本化數據可視化參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:針對配電網規模的日益擴大,帶來了越來越多的配電網設備狀態數據,用戶從海量的數據信息中洞察到配電網的整體情況存在困難的問題,提出了配電網設備狀態的文本化數據可視化系統的設計方案。介紹了標簽云的可視化方法,并從提取關鍵詞、計算單詞尺寸、布局算法和分析布局算法效果等層面提出了基于詞頻統計的文本化數據可視化方案,展示了文本化數據可視化的結果圖景。
關鍵詞:配電網;設備狀態;文本化數據可視化系統
0引言
隨著經濟建設的進程逐漸加快,人們對電能的需求不斷攀升,電網規模日益擴大,配電網設備在運行時產生的狀態數據信息越來越多。眾所周知,實時監控與分析配電網設備狀態數據,有利于避免配電網設備發生故障,最大程度地減少配電網設備的損失[1]。但是,用戶要想在海量的數據信息中洞察到配電網的整體情況存在著巨大的難度。為了幫助用戶更好地理解和分析配電網設備狀態的數據信息,建立一個能直觀呈現數據信息的可視化系統勢在必行。可視化系統基于人的視覺敏感度,能將抽象數據轉化成直觀的圖形或圖像,具有交互性特點的技術[2]。該技術如果應用于配電網設備狀態文本化數據中,將能增強用戶對配電網設備狀態的形象化認知,提高用戶提取、分析、處理數據的速度。本文將針對配電網設備狀態數據進行可視化探討,并提出配電網設備狀態的文本化數據可視化系統設計方案。重點介紹標簽云的可視化方法,并從提取關鍵詞、計算單詞尺寸、布局算法和分析布局算法效果等層面提出基于詞頻統計的文本化數據可視化方案,展示文本化數據可視化的結果圖景。
1文本化數據可視化
由于人工處理文本信息的速度較慢,因此需借助文本分析技術以提高信息處理的效率。目前,可挖掘并提取文本信息的技術存在不少,然而這些文本分析技術在幫助人們分析數據方面仍存在一定的缺陷[3]。文本化數據可視化技術是一種基于人的圖像敏感度,以視覺符號的形式呈現大量文本中的文字或數據,從而幫助人們迅速掌握關鍵信息的技術。在文本化數據可視化的研究領域,主要包括的類別為基于文本內容、文本關系和多層信息的文本化數據可視化[4]。基于文本內容的文本化數據可視化可分為基于詞頻的可視化和基于詞匯分布的可視化。基于文本內容的文本化數據可視化能處理單個特定的文本和文檔集合等對象,主要目的是幫助用戶迅速掌握文本的整體內容和重點信息,同時指導用戶對文本信息進一步理解。基于文本關系的文本化數據可視化的主要研究對象包括文本內部或文本與外部之間的關系,如文本內部的語義結構、主題的相似性、文本與外部的引用等。基于文本關系的文本化數據可視化一般使用樹狀圖或網絡圖展示文本或數據。基于多層信息的文本化數據可視化側重于結合信息的多個層面,研究用戶從更多層面和更深層次理解文本數據的方法。如一則新聞的熱點將根據時間的推移發生變化。其中文本數據的其它層面指的便是新聞的熱度和時間因素。
2標簽云的可視化方法
當配電網設備故障時,往往通過文字語言的方式記錄配電網設備和線路中的問題。而以文字而并非結構化的數據來描述,將降低人工處理信息的速度和效率,同時導致數據處理的出錯率升高,難以確保信息的準確度。為了解決該難題,配電網設備狀態文本化數據可視化設計將運用基于詞頻統計的可視化手段顯示文本數據,同時采用標簽云的文本可視化方法[5]。下面將闡述標簽云的實現過程。第一步,預處理階段。在提取完相關文本信息后,應尋找出文本中表示特征的重點信息,并用于可視化的數據展示。同時,需提取出對文檔主要內容具有代表性的關鍵詞和關鍵詞的權重值,從而勾勒出文本信息的大致輪廓,幫助用戶從整體上了解文本信息的主要內容。第二步,可視化的設計和展示階段。該階段的主要工作是依據從文本中提煉出的特征信息,有針對性地設計可視化的整體布局。針對標簽云的方法,單詞的大小、位置和顏色等信息應重點關注。這些關鍵信息的考量有利于從細節上完善文本或數據的可視化設計和展示,實現重點突出、主題鮮明的目標。第三步,數據信息的呈現階段。在該階段,文本和數據信息將呈現給用戶,同時通過交互的形式積極采納用戶對文本或數據信息的反饋,使信息得到進一步完善和補充,最大化地滿足用戶對文本信息理解和分析的需要。
3基于詞頻統計的文本化數據可視化設計方案
以上主要闡述了文本化數據可視化的基本概念和主要類型,并對標簽云可視化方法的實現路徑進行了重點說明。下面將針對配電網的設備狀態,從提取關鍵詞、計算單詞尺寸、布局算法、分析布局算法效果等層面提出基于詞頻統計的文本化數據可視化設計方案。
3.1提取關鍵詞
在一篇文檔中,關鍵詞是指能代表文檔基本內容和主要思想的詞語。一般而言,衡量文檔詞語重要性的方法是權重法,如布爾權重法、熵函數和TF-IDF權重法。本文將采用TF-IDF權重法提取關鍵詞,該方法具有算法簡便、準確度和召回率高等優勢[6]。其基本思路是文檔中占據權重較高的單詞出現的次數相對較多,即TF(頻率)較高,而該單詞出現的次數和范圍在別的文檔中則相對較少,即IDF(文檔占總文檔的比例的倒數的對數)較低。TF和IDF分別為:TF(ti,dj)=a+(1+a)×tf/Max(tf)(1)IDF(ti)=log(N/nl)(2)式中,a為調節因子;tf為單詞在文檔中出現的總次數;Maxt(f)為全部單詞在文檔中出現頻率的最大值;N為文檔的總數目;nl為包括單詞l的文檔數量。其中,IDF的值越小,單詞出現的文檔數目越多。將TF和IDF結合起來對最終單詞權重進行計算,有:weightij=tfi.j×idfl=tfi.j×logN(/n)j(3)在運用TF-IDF進行關鍵詞提取的過程中,將配電網設備狀態所有缺陷的描述都整理成一個文檔。
3.2計算單詞尺寸
作為視覺屬性,單詞的尺寸能凸顯單詞在文檔中的重要程度。一般而言,在標簽云的方法中,根據頻度或權重依次遞減的順序對單詞進行排序。通常單詞的頻度或權重越大,其尺寸就越大,這將放大權重較大的單詞,凸顯其重要性。一般地,網頁在正文中往往選用13px或14px的字體,由于標簽云最后需在屏幕上顯示,因此字體的最大尺寸將設置為100px,最小設置為13px。在單詞權重值的計算中,計算結果已得到歸一化的處理,權重取值位于0至1的區間,那么通過權重值就能容易地計算出單詞在屏幕上顯示的尺寸。
3.3布局算法
本文將使用D3.js方法實現標簽云,該方法能凸顯權重大的單詞,最大化地利用文檔空間,實現良好的文檔布局效果[7]。在配電網設備狀態的文本化數據可視化系統設計中,本文將運用單詞擺放算法,根據權重值大小依次遞減的順序對單詞進行排序,即首先將權重最大的關鍵性的單詞擺放到離布局中心最近的位置,其次擺放剩下的關鍵性的單詞。如果文檔檢測到擺放的單詞與之前擺放的單詞重復,那么將該單詞調換到新的地方,再對重復的單詞進行二次檢測。循環以上步驟,如果全部的關鍵詞都合理地放置在相應的位置且不存在重疊的現象,那么整個流程結束。在布局算法實現的過程中,值得注意的是重疊檢測和對單詞進行二次擺放的策略。重疊檢測是影響布局算法效率的重要因素。通常來說,提高重疊檢測算法速度的主要方法是層次包圍盒[8],其主要工作理念是空間分解,在挑選出長方形、圓形等幾何特性較簡單的包圍盒后,根據包圍盒面積大小依次遞減的順序將包圍盒進行分解,從而得到原來圖形的幾何屬性。可通過建立樹的數據結構來表示包圍盒的層次關系,最后繼續測試包圍盒重疊處。在調整位置的策略方面,本文選擇的是朝著360°方向從近到遠地移動關鍵詞的位置,直到找到不產生重疊的區域。該策略的優點在于最先擺放的單詞將一直處于中心區域。具體而言,在調整位置的過程中,本文使用了在阿基米德螺線處移動的策略[9]。阿基米德螺線是指如果點Q在射線OA中做勻速運動,OA以勻速的角速度繞著O點旋轉,那么Q點的運動軌跡就是阿基米德螺線。阿基米德螺線的主要特點是每兩條曲線相隔2πα。基于此特點,在調整位置時可使尋找到的新位置在螺旋線上朝著距離中心較遠的方向轉移,以使處于布局中心處的單詞緊密相連。如果在直線上而不是在阿基米德螺線上移動,那么難以達到提高空間利用率的要求。
3.4分析布局算法效果
布局算法效果的衡量需借助一定的評估參數,本文采用的可量化的評估參數分別是布局算法的實際運行時間t、詞語與界面中心之間的平均距離dave和可覆蓋全部詞語的最小矩形面積Smin。
4可視化結果
在配電網設備狀態的文本化數據可視化系統中,最終應呈現一幅可視化的效果圖景,即單詞均勻集中在一個平面,平面整體簡潔大方,單詞之間互不重疊,關鍵詞尺寸依據各自的權重程度而大小不同。基于人的視覺感知,標簽云的可視化方法能生動形象地呈現出關鍵詞權重大小的差異。該文本化數據可清晰、直觀地展現出配電網的設備狀態,有利于調度人員根據可視化的結果迅速判斷出配電網設備存在的問題,從而及時做出調整,加強對設備的監控與管理。同時,用戶交互是文本化數據可視化系統中必不可少的一部分。具體地說,用戶交互是指用戶通過高亮、縮放等操作接觸系統實現文本和數據信息的傳播,促進用戶對數據的理解與分析,及用戶對信息的完善與補充。
5結語
本文主要針對配電網設備狀態數據進行了可視化的研究,提出了配電網設備狀態的文本化數據可視化系統的設計方案。首先介紹了文本可視化的相關概念和基本特點,其次介紹了標簽云的可視化方法的實現路徑,并從提取關鍵詞、計算單詞尺寸、布局算法和分析布局算法效果等層面提出了基于詞頻統計的文本化數據可視化方案,最后展示了文本化數據可視化的結果圖景。
參考文獻
[1]鄧安明,鄭建鴻,宣磊,等.基于6LoWPAN的物聯網通信技術在配電網設備狀態監控方面的研究與應用[J].智能城市,2017(5):98-99.
[2]唐家渝,劉知遠,孫茂松.文本可視化研究綜述[J].計算機輔助設計與圖形學學報,2013,25(3):273-285.
[3]楊光.電網可視化技術[J].國際電力,2004,8(2):45-47.
[4]林躍.基于語義的文本可視化研究[D].哈爾濱:哈爾濱工程大學,2014.
[5]駱逸欣.文本數據可視化之標簽云[J].電子技術與軟件工程,2017(13):197-198.
[6]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,29(b06):167-170.
[7]趙聰.可視化庫D3.js的應用研究[J].信息技術與信息化,2015(2):107-109.
[8]關振群,宋超,顧元憲,等.有限元網格生成方法研究的新進展[J].計算機輔助設計與圖形學學報,2003,15(1):1-14.
作者:吳楚 王金芹 金月 單位:云南電網有限責任公司瑞麗供電局