本站小編為你精心準備了大數據時代網絡安全及預測技術參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:大數據時代信息技術的快速發展,依托于各類硬件防護設備的網絡體系架構的異構數據量每天以指數級的量級遞增,基于傳統的網絡安全防護技術無法有效地適用于具有海量數據的特征網絡安全和分析預測等工作,因此海量數據的保存、使用以及分析等信息挖掘和數據分析預測逐步成為社會各界重視和當前的研究趨勢;以海量的異構數據為研究對象,識別網絡安全大數據的典型特征,結合情報預測的主要方法,創新性地提出了大數據特征下的網絡安全預測分析技術,提高網絡安全風險識別和預測、預警能力,有效地改善網絡防護效果。
關鍵詞:大數據;機器學習;網絡安全預測
0引言
我國進入到21世紀后,特別是近10年來,網絡科技發展突飛猛進,大數據、云計算、物聯網等技術逐步由新興轉為普遍,人類進入了海量信息的時代。各種移動設備的普及應用等帶來了新的數據時代[1]。應運而生的是各種網絡安全事件頻繁出現。其根本原因在于大數據環境下的網絡安全預測技術的瓶頸[2],基于傳統的網絡安全防御技術無法應對海量數據特征下的網絡入侵,因而局面較為被動。基于此,研究大數據時代背景下網絡安全海量數據的信息分析、提取以及安全問題的預測技術迫在眉睫。
1分布式模型訓練架構
1.1大數據網絡安全預測關鍵技術
海量數據分析挖掘及預測預警的基礎以及核心在于大量異構、多維數據的清洗、降維和同構化等預處理工作[3]。在此核心的基礎上,進行數據的分類、學習、訓練形成安全預測模型,并結合實際情況,進行網絡安全態勢的感知和預警。1)異構、多維數據的清洗:首先結合各類交換機、路由器、網關機、傳感器等采集設備的網絡安全日志,進行數據的預處理,建立數據關聯關系,實現數據融匯,按照固定的規范,將日志的數據進行標準化處理,并統一保存,做好進一步日志分析的準備[4]。2)多層級網絡安全評估。通過建立網絡安全多層級的評估模型,結合網絡安全威脅評估算法,提煉、獲取、形成網絡威脅列表,根據目前常見的網絡攻擊的行為、攻擊方式、網絡異常的狀態、主動攻擊的手段等完成建模好訓練,從中提取攻擊核心代碼、異常流程狀態數據,并標記、學習、訓練異常行為,結合分類計數,進行網絡安全的基本評估。3)網絡安全態勢預測[5]。將多層級多維度的網絡安全評估模型與當前獲取的網絡安全事件結合,建立網絡安全狀態圖譜,整體分析完成安全態勢預測。后續,結合目前常用的Gognos架構、帆軟報表等數據可視化分析常用的工具,建立關系數據模型,以圖形化額形式完成駕駛艙、預警圖等可視化圖形展示。目前針對數據的安全態勢分析研究主要側重于數據的預測方面,但是數據處理性能在面對互聯網萬物感知的海量數據時,性能降低非常大[67],傳統的安全態勢感知模型已無法適應大數據時代,另外由于科技發展帶來的新型的攻擊模式層出不窮,如果對各種不同類型的攻擊做到精準預測和感知,需要對攻擊模型進行不斷地學習、訓練,并更新攻擊庫[89]。基于上述問題,本文采用分布式的技術對數據進行處理和清洗。在處理數據過程中主要采用有別于傳統的機器學習的方法,提出了基于神經網絡的采樣降維和聚類算法,在此基礎上進行網絡安全預測。第一步:使用基于開源平臺的Hadoop進行分布式數據處理,將通過內存分析處理的數據進行自動劃分,將數據隨機分布到不同的節點完成基本的處理分析。第二步:分布式處理完成的數據需要進行降維和聚類,通過改進的聚類算法和基于特征值分解的降維辦法進行降維,完成分析預測前的數據清洗。第三步,清洗后的數據挖掘,針對大數據時代異構數據,采用基于誤差反饋的神經網絡算法挖掘數據流的深層特質,通過循環、往復、迭代持續進行模型訓練,提煉訓練模型參數,完成數據的預測,并合理提升預測的準確性。
1.2分布式數據處理框架
基于傳統的神經網絡模式主要采取尋找目標函數最小化的方法進行處理模型的參數訓練,其不足在于機器學習效率低、標準化能力差,是應用于海量網絡安全數據提取的掣肘因素。考慮到傳統算法的不足,設計了改進的前饋神經網絡模型,基于Hadoop的分部署數據處平臺,從算法和算力上解決訓練模型的復雜性問題,設計了基于分治策略的分布式模型訓練算法。Hadoop分布式數據處理平臺的核心組件包括HDFS(hadoopdistributedfilesystem)分布式文件系統以及基于MapReduce的并行化處理編程單元。通過分布式文件系統將海量的預處理后的日志文件進行分布式的存儲,在這個過程中,通過MapReduce完成并行高速運算,其在海量數據環境下的并行計算展示出了強大的能力,尤其適合萬物互聯狀態下的海量網絡安全日志數據的處理。因此,本文基于Hadoop的優勢特點,建立了基于分治策略的分布式模型訓練算法。該算法主要采用的是前反饋式訓練神經網絡架構,網絡數據記錄在該架構中包含兩種傳輸路徑。路徑之一的起始點為輸入層,途徑隱藏層,然后到達傳輸層;路徑之二為前向反饋型路徑,起點為輸出層,反向傳輸到隱藏層。兩種路徑互相結合、互相補充的模式,使得該架構具有較高的自我訓練、自我反饋和協調的能力。通過輸入的元數據特征持續的修改框架的訓練模型,達到自我調整的目的,該框架尤其適合對于沒有經過馴良的特征數據記錄的識別,且在海量的網絡安全數據集合匯總,該架構對比傳統的神經網絡算法識別數據的非線性內在規律較高。本文所設計的基于Hadoop的分布式數據處理架構其結構相對復雜,具有對原始數據中的異常數據值敏感性不足,對于臟數據、數據噪聲的兼容性較好的優勢。
2數據預處理-PSO-K-Means聚類算法
數據預處理的第一步為數據清洗,其主要是作用是進行錯誤數據的識別和糾正,通過兩個關鍵步驟完成數據的清晰;第二步采用分布式聚類算法實現數據聚類,主要對網絡安全設備收集的海量的多維數據進行聚類,聚類之前需要做必要的工作為對數據進行統一化處理,也就是降維操作,其作用是提升聚類的效率,提升大數據的處理速度。本文采用的是基于維度特征分析的降維算法,其前提條件是需要收集元數據的協方差矩陣的特征向量和特征值,并結合標準化公式,導出特征向量以及對應的特征值,在此基礎上,進行數據的降維操作。處理海量數據的降維算法需要與分布式技術結合,其具體的過程如圖2所示。數據預處理過程中的特征分解算法主要采取的是行數與列數保持一致的對角矩陣分解算法,由于原始矩陣的行數與列數不是完全相同,因此該算法無法直接處原始矩陣,通常采取的措施為對矩陣進行初步的降維處理,以得到對稱矩陣。經過降維得到的對稱特征向量矩陣后,采取改進后的迭代求解的聚類分析算法———K均值聚類算法(K-meansclusteringalgorithm),經典的K-Means算法目前基本使用在單機的情況下,算法執行效能較低,面對大數據環境下,其可伸縮性不足,且由于其對參數的敏感度非常靈敏,K值的簡單變化都會影響到最終聚類的結果,抗噪聲干擾能力很差。改進后的聚類算法可以解決傳統的聚類算法的結果不可控的問題,算法的為穩固性更高、彈性更強。具體的做法包括粒子群尋優處理,數據特恒分析,迭代搜索獲得最佳聚類中心值。
3數據挖掘-基于Hadoop的分布式挖掘算法
1)Apriori算法。主要應用與0對1類型的關聯規則挖掘,其核心在于建議一個依托于兩階段數據項的遞歸算法。隨著數據規模的擴大,該算法的瓶頸在于I/O的吞吐量的指數級增加降低了效率。2)Eclat算法。主要應用與關系型數據,其核心在于倒排二分查找思想,建立倒排表,提高頻繁項集的產生速度。3)FP-Growth算法。其核心在于采用了頻繁模式增長策略進行數據挖掘,識別頻繁集。其優勢在于不需要闡釋候選模式,只需要進行兩次數據掃描,在處理海量數據時,其性能對比前兩種算法,優勢非常明顯。本文使用基于Hadoop分布式計算框架對FP-Growth算法,采用并行分筆試的數據挖掘策略,挖掘數據集的關聯規則。在算法中通過上述算法獲得最初的網絡安全問題預測的結果。數據挖掘的第二步處理是應用基于時間維度的網絡安全預測算法對初步的挖掘頻繁項集進行處理,進行更精確的網絡安全預測。步驟一:進行初步網絡安全預測初判。輸入原始數據集,進行數據異常情況統計,并拆分匯總生成異常數據庫(ADL)。步驟二和步驟三:通過Hadoop的MapReduce的映射和規約模型進行分布式計算,輸入數據的同時開展異常檢測。在算法中使用BW(i)標識網絡危險的類型。步驟四:設置BW(i)為已知風險,比對BW(i)和異常數據庫(ADL),并記錄ADL中的異常類型i的出現次數。步驟五:獲取歷史威脅數據集HBW。采用方法funca-tion()在歷史庫中隨機產生初代網絡安全威脅記錄。步驟六、步驟七:對新的網絡安全威脅記錄進行處理。使用數字代表一定時間范圍內該威脅出現的頻率。步驟八:進行判斷形成結論。比對當前威脅與歷史威脅庫的數據量。如果大于歷史數量,則定義當前網絡狀態屬于高級別風險。如果與歷史持平,定義網絡安全黃色預警。如果小于歷史數據,則定義為安全,同步數據網絡安全預測的定性預警和量化數據。
4實驗過程及結果
4.1實驗數據集選取
實驗數據集包括:美國空軍局域網網絡流量數據集經過語出里后的KDDCUP99數據訓練集和國家互聯網網絡安全中心提供的CAIDA數據集。
4.2網絡安全預測結果
首先開展的實驗為依據數據集合開展網絡安全主動性威脅檢測率。根據表中數據可以看出,基于本文的算法實現入侵檢測率均高于94%,檢測平均值為94.89%。接近95%。為了從多角度驗證本文提出的網絡安全預算框架及其算法,研究過程中采用了KDDCUP99數據訓練集進行包括不同類型的5組實驗,第一組實驗選取包括Dos攻擊,Probe,R2L,U2R4入侵等4類異常網絡數據以及正常網絡流量數據包。第二組數據選取單一的Dos攻擊和正常的網絡流量訪問記錄。第三組設置了包括Probe主動入侵病毒和正常網絡訪問數據集。第四組設置R2L病毒廣播威脅和正常網絡訪問數據集,第五組數據集為大量的包含U2R病毒威脅的數據包和正常網絡訪問數據集。在全部5組數據集中的正常網絡訪問流量占總體測試數據集的數據比例為四分之三。基于對實驗結果的多維多、多角度分析,以驗證算法的可用性和性能,主要從實驗結果的誤判率、網絡安全預測的準確率、網絡安全威脅的漏檢率這3個角度對實驗數據進行分析。其中誤判率指的是對正常數據表示為威脅數據信息。檢測率指的是準確識別異常數據比率,漏檢率是指異常數據未被識別,將其標識為了異常威脅數據。根據圖5中的數據可以分析,基于本文的識別算法對于網絡信息中的危險預測的誤判率非常低,不到1%,檢測率較高接近94%。其中對于R2L的主動入侵式攻擊的漏檢率對比其他攻擊相對較高。由于其入侵行為特征較其他類型相對特殊,算法整體性能較高。
4.3分布式處理性能實驗結果
為了測算分布式平臺并行處理的算力和性能,本文在實驗過程中選取了更大的數據集CAIDA進行實驗。網絡安全預測算法分布式處理平臺上的分布式計算時間性能上優勢明顯,執行性能較高。因此,在進行海量數據處理時,分布式的處理方法是不二之選。實驗過程中,設置了4種比對性實驗用以驗證本文的分布式算的處理能力和有效性。第一組實驗未進行降維處理只采用分布式的聚類算法進行數據處理實驗,實驗異常檢測率很低,不到70%。可以看出,多維數據極大地影響算法的準確率。第二組實驗時在分布式聚類操作前,增加了降維和特征值的比對處理,異常檢測率提升到了平均80%,效果改善較大;第三組實驗,在采用經過同樣降維處理的數據集后,并未進行數據清洗和特征值訓練,僅采用了Hadoop的MapReduce算法進行了結果集的關聯規則分析;最后一組實驗是進行了本文的基于HadoopMapReduce算法進行網絡安全預測,首先進行數據清理和預處理、降維、特征值訓練,采用了Hadoop的MapReduce算法進行了結果集的關聯規則分析得出結果集,實驗結果顯示本文的模型的檢測率最高。
5結束語
本文提出并實現了基于Hadoop的分布式數據處理的網絡安全預測算法,該算法通過對現有較為流行的機器學習算法進行有針對性的優化、改進后,進行網絡安全事件的預測和預警。經過試驗證實,采用Hadoop分布式大數據處理平臺與數據挖掘算法結合的模式,實現了分布式數據處理和并行化計算提升海量數據處理能力的目的。通過數據降維和特征值訓練,增加誤差反饋自學習能力,解決了以往的網絡安全預測模型的檢測率低的問題。
作者:梁永堅 黃慷 韋田 黎銳杏 單位:國網安徽省電力有限公司 中能博望(北京)科技有限公司