本站小編為你精心準備了多層分布式數據庫傳輸路徑匹配方法參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:傳統多層分布式數據庫數據的傳輸路徑匹配準確度較低,對此提出基于時間序列索引的多層分布式數據庫傳輸路徑自動匹配方法。計算分布式數據庫資源信息、初始信息序列、主要信息集合、信息屬性權衡系數,整合數據庫信息,建立BTREE索引,采用雙向索引方式提取整合數據核心數據段,建立時間序列表,利用時間表對數據進行二次約束,對數據初始傳輸路徑評估后與實際路徑參數進行重合度對比,實現數據傳輸路徑的自動匹配。實驗數據表明,與傳統傳輸路徑匹配方式相比,設計的自動匹配方法完整數據傳輸路徑匹配準確率提高24%,破損數據傳輸路徑匹配準確率提高19%,具有實用優勢性。
關鍵詞:分布式數據庫;傳輸路徑;信息序列;信息集合;異構數據
引言
隨著現代科技的飛速發展,我國社會經濟結構、生產消費結構均發生了巨大變化。這些變化影響著我國國民生活的方方面面,尤其是近年來電子計算機技術的不斷發展,導致我國計算機數據量與日俱增,傳統的集中關系型數據庫已經難以滿足數據存儲要求,多層分布式數據庫應運而生。多層分布式數據庫是現代市場上一款應用范圍最廣,功能強大的大型管理型數據庫。該數據庫具有極強的分布性、邏輯整理性。可以實現分布式計算、數據庫透明訪問,提高數據庫傳輸負載,保證數據傳輸可靠性。此外,分布式數據庫對于大型分布式數據和數據倉庫具有較強的處理能力[1]。現階段,我國市場上各大型企業和相關應用部門存儲的應用數據多為異構數據。這些數據在存儲和傳輸過程中,很容易出現較大的信息缺失,而缺損的部分會掩蓋數據的空間相關信息,使其在同一時間序列下的連續歷史數據,很難做到百分之百數據匹配,從而難以滿足數據使用要求。對于上述情況,必須設計更高精度的數據庫傳輸路徑自動匹配方法,提高數據傳輸完整度。但是在進行傳輸路徑自動匹配方法的研究設計中,數據庫多變量信息和時間序列的整合問題,成為制約其發展的重要因素,對此設計基于關聯數據聯合驅動理念,首先對數據庫信息進行整合,以此提取數據時間序列,最后根據整合信息對數據源信息進行二次規劃,實現數據庫傳輸路徑自動匹配[2]。
1多層分布式數據庫傳輸路徑自動匹配方法設計
1.1數據庫信息整合
想要提高分布式數據庫信息傳輸路徑自動匹配的精確度,首先需要對數據庫信息進行整合。選取數據庫中數據源的原始數據及信息,提取主要特征集,獲取信息特征數據的屬性權重量,通過分布式數據庫的信息累積分布函數進行數據信息整合,其詳細步驟如下:假設wf為預設函數f(t)的數據傳輸截止頻率,f(n)為函數f(t)的采樣序列,利用公式(1),可以表示需要整合的多層分布式數據庫中的資源信息:式中,S0為公式的尺度函數;Sk為代表數據源信息在數據庫高頻段產生的數據誤差項,d[k]為分布式數據代表采樣值的數據源信息[3]。假設derty代表分布式數據庫中采樣率較低的數據源,gkker為需要進行數據整合的數據源的數據量。mgyu為需要整合的數據源信息必須滿足的數據整合約束條件。通過公式(2)可以獲取數據源的初始信息序列:式中,dghk為數據源信息內在的相關性數據;ffil為數據源的單一性特征。假設通過dgjo和drjo表示具有最高相同性的兩個同屬性消息源矩陣,kmert異構數據信息源存儲區域,eety為采樣差錯率。根據公式(3)可以直接求取分布式數據庫數據源的主要信息集合。式中,vfip為數據庫數據采樣位置判決機制系數,mkk為分布式數據庫數據源信息類型數據量[4]。設dgik為數據源信息數據的屬性相關性,Rqwe為數據庫特殊Forbenius范數。根據公式(4)可以獲取分布式數據庫數據源信息屬性的權衡系數:式中,sdfg為數據源信息聯合稀疏的分散性閾值;fegh為數據源信息數據屬性以及相關時空分布性。假設δfh為數據參數秩的近似值,rrhj代表分布式數據庫數據源信息屬性權重系數的對應權的權重向量空間,提出數據庫異構數據信息的累積分布函數:式中,wdgj為異構信息在進行整合時的最大周期誤差,ser為數據源信息的采樣周期[5]。根據公式上述公式,即可通過分布式數據源的主成分變化規律,進行分布式數據庫內信息資源的整合,其整合表達式為:式中,ssfgh為分布式數據庫數據信息源主成分的變化規律。根據上述公式,即可對分布式數據庫進行數據資源整合,為后續數據庫傳輸路徑匹配提供基礎。
1.2獲取信息時間序列
在完成多層分布式數據路數據資源整合后,為了提高后續數據傳輸匹配精度,設計采用數據核心成分重構法,對數據庫整合數據資源信息時間序列的相空間,進行數據重構,建立時間索引表,獲取信息時間序列。因為多層分布式數據庫只負責異構數據的存儲和讀取,自身并沒有明確的復雜性匹配方式,其固有的數據搜索引擎為KEY-Value[6]。雖然通過上述設計實現了數據庫內異構數據的資源整合,但是KEY-Value搜索存儲方式只能提供數據基本表,這種基本表雖然可以在數據底層提供搜索,但是并不是建立在存儲引擎上的索引,而是存儲自身索引。所以需要使用重構法,重新建立信息時間序列表。設計采用BTREE索引形式,通過數據庫內的路徑索引方位節點即pathID存儲表獲取路徑映射,直接在數據路信息節點存儲表中獲取數據節點信息。BTREE索引是一種順序結構,如表1所示[6]。表1記錄了BTREE索引pathID的存儲順序,根據表1信息,調用數據庫存儲引擎在pathID上的路徑KEY,并建立有圖形式的BTREE索引,如圖1所示[7]。建立BTREE索引形式后,即可建立信息時間序列表。具體步驟如下:首先重新利用BTREE索引對重組后的數據進行分割,提取固有核心數據字段。因為我們在數據表如PathIDindex里建立的BTREE索引為唯一索引,且數據索引路徑的KEY不會重復,所以可以通過提前割除KEY的形式,比較是否具有重復節點[8]。BTREE索引采用雙向搜索方式進行數據提取。所謂雙向搜索就算將數據搜索分解成為兩個不同的數據索引過程。利用BTREE搜索引擎沿正反兩個不同方向,對數據庫數據節點交替搜索和數據分割。直到兩個方向的搜索程序在某一個數據節點相遇為止。正向搜索就是沿著分布式數據庫上層數據節點向底層數據進行搜索,反向搜索是從目的節點向上層搜索。正向搜索時,基于原目的數據庫數據節點搜索到某一節點T時,如果變更BTREE索引模式,轉化為反向搜索,則以正向搜索節點T為臨時終端節點,進行數據索引,然后反復迭代[9]。直到正反兩個方向上的搜索節點重合為止。搜索過程中需要重新定義數據庫比較函數,用于數據庫Key的比較[10]。因為分布式數據庫數據信息包括數據類的Key,也有純字符形式的Key,所以需要重新定義數據數值和字符串,預設字符為:匹配時數據字符返回量為0,大于返回量為1小于返回量為-1。雙向搜索完畢后,就可以調用數據庫存儲引擎預設的數據接口,創建信息時間序列。因為信息時間序列表是以數據路徑編號創建的,而節點條目TID值可以看做是路徑編號的Key值,所以路徑編號就算數據節點的數據存儲位置。只需要在創建時間序列表時,指定分布式數據庫的存儲引擎在路徑編號列中創建BTREE索引,就相當于創建了數據路徑編號表,再根據路徑編號表,對應指定存儲引擎中的Key,即可重組數據時間序列,獲取序列表[11]。
1.3實現數據庫傳輸路徑自動匹配
以上述獲取的分布式數據庫數據信息時間序列表為核心依據,利用路徑傳輸時間序列,對分布式數據庫數據源信息的初始路徑信息進行估計,提出分布式數據庫信息向量和原始數據向量之間的路徑比例關系,以此為依據進行傳輸路徑的自動匹配[12]。設x(b)為多層分布式數據庫數據源信息源中的第b個匹配信息,R(m)為每個匹配數據信息源進行數據匹配時產生的一組不固定偽隨機數據號碼,利用上述過程求取的分布式數據庫信息時間序列表Rserty為核心依據,利用公式(7)對時間序列表上的整合數據源信息進行二次約束:式中,kfrty為數據庫內任意匹配數據的數據源信息Yser和數據流隨機序列sfh的乘積。根據公式(7)對數據庫數據進行二次規劃后,設計以阿米霍步長準則,對匹配數據進行初始路徑評估,其評估公式為:式中,xcbklp為分布式數據庫內信息的欠定狀態系數,Qswert為數據庫數據信息的負方向有效梯度;mswep為數據源信息進行路徑匹配時的相關性參數閾值。根據公式(8)獲取的評估參數,與實際路徑參數進行重合匹配,如果匹配度超過閾值,則證明可以進行多層分布式數據庫的數據路徑傳輸,否則不能進行。其實際路徑參數計算公式為:式中,khui為低階數據庫數據矩陣;μswpp為數據源數據信息;mder為數據庫內的數據源信息匹配奇異值的數據異常分布量;pgyu為數據源信息的匹配維度空間。hlpo為數據庫匹配信息元素的集合向。以公式(9)求取得計算結果為依據,即可實現路徑自行匹配。
2實驗數據分析
多層分布式數據庫信息[13-15]傳輸路徑自動匹配準確率設計方法的有效性和操作價值需要通過實際數據信息傳輸效果進行確定。對此,進行實際數據傳輸路徑匹配實驗,分析傳輸過程數據。在MAT-LAB7.5環境下,搭建數據庫傳輸路徑匹配平臺。數據樣本采用國內某大型數據庫提供的2016年以來國內衛星觀測到的地質數據信息資料,設定實驗組和對比組,令實驗組選擇傳統數據路徑匹配方法,令對比組選擇新設計的傳輸路徑自動匹配方法,將數據信息分別提供給兩組,進行傳輸路徑匹配。
2.1數據完整度計算
實驗對比分析的第一階段為完整數據對比。在實驗前需要對數據完整性進行評價確認。從分布式數據庫數據的信息丟失率和擬合度兩方面,進行樣本比對分析。驗證實驗用數據是否為完整數據。設γjko為數據樣本類型,jkio為實驗數據內個數據之間的關聯性,ljko為源數據信息結構,則根據公式(10)可以計算實驗數據的完整性。其fhui值越高,則證明信息數據完整度越高。實驗用數據完整度必須達到98%以上。
2.2完整數據傳輸路徑匹配準確率對比
將通過完整度計算的實驗數據作為最終樣本,劃分為10個數據組。分別通過實驗組和對比組進行數據傳輸路徑匹配,并對比最終匹配度。其結果如圖2所示。根據圖2數據可以清晰地看出,實驗樣本10組數據庫傳輸數據路徑匹配過程中,實驗組匹配均在70%以上,對比組實傳輸路徑自動匹配準確率則處于50%到70%之間,實驗組整體準確率明顯高于對比組。經過實際計算可以確定,實驗組對于完成數據傳輸路徑匹配準確率提高了24%,具有較強優勢性。2.3破損數據傳輸路徑匹配準確率對比因為異構數據在存儲過程中很容易出現數據破損,對于破損數據傳輸路徑的自動匹配同樣是其整體優勢性的重要參照指標。對此,重新提取實驗樣本,所有數據均換為破損數據,進行數據傳輸路徑自動匹配,其整體數據對比結果如表2所示。根據表2數據可以看出,在7組實驗目標數據傳輸路徑的自動匹配中,實驗組數據匹配量和對應匹配精度同樣高于對比組。可以進一步證明,設計的多層分布式數據庫傳輸路徑自動匹配方法可以有效提高數據路徑匹配準確度。
3結束語
分布式數據庫的整合和應用是未來數據管理的趨勢,也是核心技術陣地。對于該領域的研究創新,符合當前數據管理行業的大方向。對此,針對傳統分布式數據庫傳輸路徑自動匹配方法信息匹配準確率較低的問題,基于數據時間序列,提出新型數據路徑自動匹配方法。設計通過數據整合和建立獨立索引,提取核心字段,再進行匹配,可以有效提高匹配的精確度。在未來研究中,可以從實驗數據樣本入手,通過研究更復雜的數據情況,進一步提高數據整合度,從而加強路徑自動匹配精度。
參考文獻
[1]呂紅艷.分布式數據庫安全性在無線傳感網絡中的研究[J].甘肅科技縱橫,2017,46(3):8-10.
[2]馬東波.分布式數據庫一致性方法研究[J].科技尚品,2017,(2):160-160.
[3]蘇恒陽.網絡通訊分布式數據庫信息檢索技術研究[J].信息通信,2017,(9):211-213.
[4]孫喬,付蘭梅,裴旭斌,等.基于一致性哈希的分布式數據庫性能拓展[J].計算機應用,2016,36(s2):218-220.
[5]丁強龍,王津,張學杰.基于子模式的關系數據到圖數據ETL方法研究[J].計算機工程與應用,2017,53(12):76-84.
[6]肖凌,劉繼紅,姚建初.分布式數據庫系統的研究與應用[J].計算機工程,2001,27(1):33-35.
[7]張旭剛,李東輝,俞俊,等.基于zookeeper和強一致性復制實現MySQL分布式數據庫集群[J].微型電腦應用,2016,32(1):77-80.
[8]林基明,班文嬌,王俊義,等.基于并行遺傳-最大最小蟻群算法的分布式數據庫查詢優化[J].計算機應用,2016,36(3):675-680.
[9]朱濤,郭進偉,周歡,等.分布式數據庫中一致性與可用性的關系[J].軟件學報,2018,(1):131-149.
[10]王欣,周曉梅.云計算環境下大數據合理分流技術研究與仿真[J].計算機仿真,2016,33(3):292-295.
[11]王玨,孟曉蕊.分布式數據庫同步中間件系統的設計與研究[J].現代電子技術,2016,39(9):31-36.
[12]孫喬,付蘭梅,裴旭斌,等.基于一致性哈希的分布式數據庫性能拓展[J].計算機應用,2016,36(s2):218-220.
[13]吳慶曦,彭暉,王瑾,等.電網調控集群分布式實時數據庫的設計與關鍵技術[J].電力系統自動化,2017,(22):89-95.
[14]周翔宇,程春玲,楊雁瑩.基于分布式內存數據庫的移動對象全時態索引[J].計算機科學,2016,43(7):203-207.
[15]林基明,班文嬌,王俊義,等.基于并行遺傳-最大最小蟻群算法的分布式數據庫查詢優化[J].計算機應用,2016,36(3):675-680.
作者:朱飛燕 楊榮 單位:西安航空職業技術學院