本站小編為你精心準備了云計算下物聯網的數據挖掘參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:隨著我國信息技術產業日漸成熟,物聯網這一新一代信息技術關鍵技術日漸受到學界重視,基于此,本文就物聯網與云計算、物聯網數據挖掘需要解決的關鍵性問題展開分析,并對基于云計算的物聯網數據挖掘、實驗驗證進行了詳細論述,希望由此能夠為相關業內人士帶來一定啟發。
關鍵詞:云計算平臺;物聯網;數據挖掘;Hodoop
隨著2010年提出的“數字地球”概念影響力不斷擴大,物聯網技術與我國民眾生活之間的距離日漸拉近,越來越多的物聯網應用也開始進入人們視野,各界對物聯網的要求也在不斷提升,而為了解決物聯網領域正面臨的數據挖掘難題,正是本文就云計算平臺下物聯網數據挖掘展開具體研究的原因所在。
1物聯網與云計算
1.1物聯網
物聯網作為學界公認的下一代網絡發展方向之一,其本身由無所不在的小型傳感器設備組成,無論是與我們日常生命聯系緊密的計算機與智能手機,還是大型網絡的服務器、超級計算機群,均屬于物聯網的重要組成部分,這也是很多學者將物聯網稱作新科技革命的原因。在S.Haller等業界權威學者的展望中,其認為物聯網技術在未來將實現物理對象無縫集成到信息網絡之中并成為參與者,而這些“智能對象”在保護安全與隱私的前提下,則能夠在網絡中找到任何問題的解決方法。對于物聯網來說,其具備著全面感知、可靠傳遞、智能處理三方面特點,而結合現有技術獲得基本信息、結合傳感器網絡和其他通信網絡實現物體信息可靠傳遞、在云計算與模糊識別等技術支持下處理海量異構數據則屬于物聯網三方面特點的具體表現,由此可見電子元器件、數據處理中心、傳輸通道三方面可以視作典型物聯網應用的組成。
1.2云計算
云計算本質上屬于一種基于互聯網的新計算方式,其能夠結合互聯網異構、自治服務較好滿足用戶的計算需要,云計算中的“云”也可以被視作對IT底層基礎設施的一種抽象概念。本文研究應用的Hodoop屬于典型的云計算基礎開發平臺,其本質上屬于一個分布式系統基礎的架構,Hodoop在云計算領域的地位可以說近似于IT產業的Linux系統。Hodoop的核心為分布式文件系統HDFS和MapReduce,前者具備高容錯性、高伸縮性等優點,這些就使得Hodoop的布置能夠較為簡單且低成本的形成分布式文件系統,而后者則具備保證分析和處理的高效性能力,由此Hodoop即可輕松進行數據的整合。總之,Hodoop這一云計算基礎開發平臺能夠通過輕松組織計算機資源實現分布式計算云平臺搭建,并以此實現云計算相關功用。
1.3物聯網數據挖掘需要解決的關鍵性問題
簡單了解物聯網與云計算后,物聯網數據挖掘需要解決的關鍵性問題也應引起人們關注,這里的關鍵性問題主要由以下幾方面構成:
1.3.1傳統模式難以應用中央模式
屬于較為傳統的數據挖掘模式,不過物聯網數據不同存儲地點的特性則使得該模式的效用無從發揮。
1.3.2對中央節點硬件要求較高
物聯網本身具備著數據規模、傳感器節點龐大的特點,而為了同時滿足其實時處理需求,高性能的中央節點硬件要求必須得到滿足。
1.3.3節點資源有限
在有限的節點資源影響下,分布式節點必須負責原始數據的預處理與傳遞。
1.3.4外在因素影響
由于數據安全性、數據隱私、法律約束等因素的影響,物聯網不能夠將所有數據統一存放在相同數據倉庫,這同樣對物聯網數據挖掘提出了較高挑戰。總的來說,現有技術與方式并不能較好滿足物聯網數據挖掘需要,這也是本文研究開展的原因所在。
2基于云計算的物聯網數據挖掘
結合Hodoop云計算基礎開發平臺進行基礎平臺搭建,選擇用物聯網數據集為例,構成了物聯網感知層、傳輸層、數據層、數據挖掘服務層四部分模塊組成的平臺,各模塊的實現思路與功能如下所示。
2.1物聯網感知層
物聯網感知層主要負責物聯網數據的采集,這一采集需要得到目標區域布置的采集節點支持,這里的采集節點主要由攝像頭、傳感器、其他儀器儀表組成,而由此形成的物聯網感知層無線傳感器網絡,便能夠將各采集點采集到的網絡數據匯集至節點,數據由此進行匯總儲存則能夠在傳輸層的支持下最終傳遞至云平臺的數據中心。
2.2傳輸層傳輸層
本質上屬于具備較高可靠性與高速性、較優無縫性特點的數據傳輸網絡,而基于Hodoop云計算基礎開發平臺構建的物聯網挖掘系統則結合傳感器網絡、有線網絡、無線網絡實現了數據傳輸網絡的構建,這就使得物聯網感知層所搜集的信息能夠更快、更好的傳遞到云計算數據中心,由此實現的更高質量互通互聯,則保證了系統中監測設備的網絡化高速數據傳輸得以實現。
2.3數據層
物聯網數據具備著異構性、海量性等特點,這就使得基于Hodoop云計算基礎開發平臺的物聯網數據挖掘系統對于物聯網數據的存儲與處理存在著較高要求,而在本文研究所構建的物聯網數據挖掘系統數據層中,該數據層主要由數據源轉換模塊與分布式存儲模塊兩部分組成,其中前者主要負責物聯網異構數據的轉換,而后者則主要負責分布式存儲物聯網所產生的海量數據,由此本文研究的物聯網挖掘系統的性能和可行性便得到了較好證實。值得注意的是,分布式存儲模塊需要結合Hodoop云計算基礎開發平臺中的HDFS文件系統實現。物聯網中的不同對象往往會通過不同的數據類型進行表示,這就使得異構性勢必屬于物聯網的根本性特征,一些相同對象使用不同數據表示便較為直觀說明了這一點,而這就使得物聯網對數據源轉換器有著較高需求。在本文構建的物聯網數據挖掘系統中,數據源轉換器在其中發揮著保護數據存儲完整、保證數據挖掘科學順利等功能,數據包解碼、數據的分布式存儲也需要得到該轉化器的直接支持,這也是物聯網數據挖掘系統中各NameNode節點文件類型為PML的原因。PML能夠通過一種通用的方式進行物體描述,而作為基于XML創建的語言,PML在與XML相同核心思想的影響下,其便能夠在物品的詳細信息提供、物品信息交換等領域發揮不俗的功能。例如,在本文研究所構建的物聯網數據挖掘系統中,PML便在節點數據采集、傳輸、存儲過程中發揮著建模功能,相關建模信息所收錄的物體屬性信息、位置信息、環境信息、歷史元素等內容,便能夠保證物品信息實現較高質量的表達,這對于物聯網數據挖掘也將帶來較為積極影響。
2.4數據挖掘服務層
數據挖掘服務層可以細分為數據準備模塊、數據挖掘引擎模塊、用戶模塊三部分,三部分模塊的具體功用如下所示:
2.4.1數據準備模塊
主要負責物聯網搜集數據的清理、變換、數據規約。
2.4.2數據挖掘引擎模塊
主要通過數據挖掘算法集、模式評估等功能為物聯網數據挖掘系統提供服務,特征、區分、關聯、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等可以視作該模塊功能的具體組成,這些功能的實現得益于數據挖掘引擎模塊中的算法集,Hodoop云計算基礎開發平臺支持下實現的算法并行化處理則是該模塊功能實現的基礎。
2.4.3用戶模塊
實現對數據挖掘知識的可視化表示。用戶模塊是本文研究物聯網數據挖掘平臺面向使用人員的部分,因此在設計中筆者注重了系統操作的友好性,簡單的數據挖掘任務開展、輕松獲得可以被理解知識均屬于設計的優勢所在。值得注意的是,為了保證本文研究的物聯網數據挖掘系統具備較高的可移植性,設計人員在設計之初便為數據挖掘服務層底層模塊設計了開放接口,由此該物聯網數據挖掘系統的應用豐富性就能夠得到較好保障,表1對本文研究的物聯網數據挖掘系統組成進行了直觀展示。
3實驗驗證
3.1物聯網數據挖掘系統工作流程
基于Hodoop云計算基礎開發平臺的物聯網數據挖掘系統工作流程可以概括為:“用戶→主控節點→主控節點允許用戶請求→主控節點調用數據挖掘算法→調用數據挖掘算法成功→準備物聯網數據→分布式數據挖掘→將結果傳遞給用戶”,而結合這一流程本文將圍繞以下幾部分開展具體的物聯網數據挖掘系統工作流程描述,具體描述如下:
3.1.1用戶請求
在用戶請求物聯網數據挖掘系統進行數據挖掘后,系統的主控節點將判斷該任務是否可以進行,而在確定可以進行后系統將首先向用戶傳遞可以進行的信息,并隨后開始具體的數據挖掘。
3.1.2數據挖掘過程
在確定物聯網數據挖掘系統可以進行數據挖掘后,系統的主控節點將有針對性的選擇數據挖掘算法滿足用戶需要,并結合MapReduce思想與Master/Slave結構進行數據挖掘任務的劃分。
3.1.3具體節點任務
在數據挖掘任務的劃分下,需要完成具體工作的節點將被分配任務,由此物聯網數據挖掘系統的具體數據處理便由此開展,同時JobTracker負責的調度和執行則將最后將數據挖掘結果傳遞給用戶。
3.2實驗驗證
為了能夠直觀判斷基于Hodoop云計算基礎開發平臺物聯網數據挖掘系統可行性和性能水平,明晰MapReduce數據挖掘算法在系統中發揮的作用,本文選擇了結合Apriori算法開展實驗驗證的方法,實驗驗證的環境、過程、結果如下所示。
3.2.1實驗環境
實驗選擇了4G內存、500G硬盤、Windows7系統的計算機作為實驗基礎,并在該計算機中通過虛擬機安裝部署了多個分布式節點,其中共3個虛擬機中的一個為NameNodeLinux系統,其余兩個則為DateNodeLinux系統。為了保證實驗質量與效率,筆者還在該計算機中安裝了專門用于Linux系統的Eclipse7.5集成開發環境,在Windows系統中安裝了SSHSecureShellClient、各個虛擬機操作系統中安裝了SSH服務,由此即可保證本文研究的基于Hodoop云計算基礎開發平臺物聯網數據挖掘系統的順利使用。
3.2.2實驗過程完成
實驗環境的搭建后,本文選擇了一組用于關聯規則算法的實驗數據,并將該數據通過C++代碼編寫的程序通過關鍵字搜索方式轉換成立標準類型大小為1G的PML文件,在HDFS命令下該文件被放入Hadoop平臺進行分布式存儲,而在運行Java語言編寫的Apriori算法后,即可得到物聯網數據挖掘系統的運行結果,通過查看系統使用中是否找到了實驗數據集中的所有頻繁項集便能夠直觀判斷其性能。值得注意的是,為了提升實驗的有效性,本文選擇了不同大小的文件開展實驗,由此實現對比物聯網數據挖掘系統運行時間更深入了解其性能。
3.2.3實驗結果
表2對基于物聯網數據挖掘系統的實驗結果進行了直觀展示,結合該表不難發現,文件大小的提升直接導致物聯網數據挖掘系統運行時間的增長,這種增長存在典型的線性趨勢,而由于應用Apriori算法的物聯網數據挖掘系統實現了頻繁項集的發現,本文研究的基于Hodoop云計算基礎開發平臺物聯網數據挖掘系統的擴展性便得到了較為直觀展現,其所具備的物聯網海量數據挖掘能力也得到了較好證實。
4結論
綜上所述,云計算平臺能夠較好服務于物聯網的數據挖掘。而在此基礎上,本文研究所提出了完善性與科學性較高的基于Hodoop云計算基礎開發平臺物聯網數據挖掘系統,便直觀證明了全文的實踐價值。因此,在相關領域的理論研究與實踐探索中,本文內容便能夠發揮一定參考作用。
參考文獻
[1]湯勇峰.基于云計算平臺的物聯網數據挖掘研究[J].電腦知識與技術,2017,1307:218-219.
[2]陳俊麗.基于云計算平臺的物聯網數據挖掘研究[J].中國新通信,2016,1821:74-75.
[3]武桂云.基于hadoop平臺的分布式數據挖掘系統研究與設計[D].天津大學,2012.
[4]林昕.基于云計算的大數據挖掘平臺構建研究[J].山東工業技術,2015(17):104.
作者:徐少甫;姚湘