本站小編為你精心準備了混合云存儲環境下的數據訪問參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《計算機工程與設計雜志》2014年第七期
1云端數據保護的相關研究
1.1安全性云端數據的安全性主要指用戶存放在公有云存儲空間內的數據內容不被任何未經授權的實體訪問、修改和刪除。實現其安全性的手段主要有兩種:①通過訪問控制機制對用戶操作權限的認證和授予;②對用戶存放的數據內容進行加密[1],分割[2]等處理。將兩者進行結合,采用第三方訪問控制和加密密鑰分發機制,可以進一步地增強用戶云端數據的安全性,并避免不可信的公有云存儲服務提供商獲取用戶的私密信息和數據。
1.2可用性云端數據的可用性也是衡量一個云存儲系統的重要指標。服務提供商應當為用戶提供按需無錯的數據服務,但數據損壞和數據丟失的事故無法完全避免,每一次出現都給用戶造成了大量的損失。相關研究提出了將多個公有云存儲服務進行整合,形成一個邏輯上的獨立存儲服務。而存放其中的數據則冗余地存放在多個公有云存儲服務提供商中,并采用備份和同步技術來確保少數公有云存儲服務故障時用戶仍然可以從其他公有云存儲服務中獲取其需要的數據[3,4]。
1.3數據訪問隱私所謂的數據訪問隱私保護是指一種防止云存儲服務提供商通過用戶的訪問日志記錄學習、分析用戶使用行為的機制。由于公有云存儲服務提供商根據訪問控制手段中的日志記錄功能可以獲得其所存儲數據的訪問者、數據的訪問時間、被訪問的具體數據、用戶正在進行或潛在地將要進行的操作、所存儲的數據量和訪問用戶客戶端的位置等信息[5]。在這種應用環境下,訪問控制策略和用戶的訪問模式也成為了隱私敏感信息的一部分,應當對其進行保護[6]。文獻[7,8]主要研究如何在不影響服務提供商的訪問控制機制功能的前提下,對用戶訪問憑據和身份信息進行保護。文獻[7]中使用了基于公鑰基礎設施(publickeyinfrastructure,PKI)的訪問控制機制,數據所有者通過哈希加密和第三方證書發放的機制,確保用戶的身份信息在訪問過程中不被服務提供商所獲取。文獻[8]則通過用戶的屬性信息經過不可逆運算生成訪問憑據。通過提交訪問憑據,用戶獲取數據的訪問權,而服務提供商無法根據用戶的訪問憑據獲取用戶信息。除了在訪問控制過程中用戶所提供的認證憑據外,用戶數據隱私也可以從用戶上傳的數據文件中獲取。文獻[2]中提出了基于數據分割分級的隱私保護機制,將數據分割并分別存儲在本地和云端,然后根據用戶的安全需求聯合采用數據染色及不同程度的加密技術進行數據染色和加密。文獻[9]中基于數據隱式安全[10]的原理,將數據進行隱式分割并進一步進行二次混淆,以確保云端數據隱私的安全性。
2新的云端數據保護方案
2.1云端數據保護方案描述系統對需要存放在公有云存儲空間內的數據文件提取元數據,再對文件內容進行分割或合并等混淆處理后再上傳至公有云存儲空間,考慮到安全性的需求,還可以對其進行加密處理。元數據信息存放在本地組織內,其中主要包括了原始數據文件的元數據、用戶上傳時指定的數據處理參數。對于用戶云端數據的安全性,考慮到系統性能開銷,主要采取分割或合并的混淆方式,如果有特別的安全需求,也可以對數據進行加密。具體的數據安全方案由用戶上傳時定義,根據上傳文件的安全需求采用不同操作對數據進行處理。數據的解密密鑰以哈希值的方式存放在元數據信息的數據處理參數中。用戶云端數據的可用性則通過在多個公有云存儲之間進行冗余存儲、及時同步的方式來確保。其備份路徑等信息同樣存放在元數據信息的數據處理參數中。用戶上傳數據文件的元數據以及用戶進行數據訪問時提交給服務提供商的相關信息,是服務提供商學習用戶訪問行為的主要數據來源。將用戶數據內容與其元數據信息分散存儲,并對用戶上傳的數據文件進行混淆或加密處理可以起到對這些信息的保護作用。經過上述處理的數據文件與處理前數據文件的關聯只在提取出的元數據中得以體現,而這些元數據將存放于本地的數據庫或私有云存儲空間內,不會被公有云存儲服務提供商所獲取,服務提供商僅能獲取經過處理后的數據文件所對應的元數據,而這些元數據和經過處理前的數據文件并無明顯關聯,沒有進行學習的價值。用戶需要對某個數據文件進行訪問時,首先訪問存放元數據的數據庫,獲取有效文件和處理后云端文件的對應關系。分割或合并的處理過程導致這樣的對應關系并不固定,可能為一對一、一對多和多對一,可以在一定程度上削弱有效數據文件和處理后云端文件的關聯關系,對服務提供商學習用戶訪問行為的過程起到了相當程度的干擾作用。
2.2混合云存儲系統本文所提出的混合云存儲方案的系統架構如圖1所示,用戶與私有云存儲系統位于企業網絡內部,由企業用戶管理。而私有云存儲系統則通過調用公有云存儲的服務接口,將相應數據存放在多個公有云存儲空間內。這些公有云存儲和企業管理的私有云存儲共同構成了一個混合云存儲系統,為企業用戶提供云存儲服務。本文所提出的系統基于Hadoop分布式計算平臺所構建,而Hadoop分布式計算平臺所使用的文件系統HDFS(Hadoopdistributedfilesystem)默認情況下將文件按照64MB的大小分散存儲在多個數據節點(datanode)中。采用接近且不超過其分塊單位的文件大小有助于提高HDFS的運行效率。因此本文所進行分割或合并操作的文件大小分類閾值定為HDFS的數據塊大小,默認為64MB。從企業內使用者的角度來看,混合云存儲系統是一個為用戶提供云存儲服務的整體,在邏輯上顯示為一個文件目錄系統中,而實際的物理空間分配卻并非如此。用戶在上傳數據文件至混合云存儲系統中時,需要根據文件內容自行決定是否將其存放在公有云空間中。用戶上傳完成后,上傳的文件將臨時存放在私有云存儲空間內,由系統進行進一步處理,用戶上傳文件流程如圖2所示。數據文件的元數據包含了相應文件的邏輯位置、物理位置、處理流程和加密密鑰的哈希值等信息,確保系統可以根據元數據信息正確地處理和獲取文件。對于用戶指定存放在私有云存儲空間內的文件,系統不再進行額外處理,而對于用戶指定存放在公有云存儲空間內的數據文件,系統將根據元數據信息對用戶已經上傳到私有云存儲空間內的文件進行處理,生成處理后的數據文件上傳至公有云存儲空間,并更新元數據信息,如圖3所示。用戶對混合云存儲系統中的數據進行讀取時,若數據文件存放在私有云存儲空間內,則用戶需要時可以直接進行訪問。而對于存放在公有云存儲空間內的數據,系統需要根據元數據信息從公有云存儲空間內將其讀取到本地,并進行逆向處理得到原始的用戶數據文件,這個過程如圖4所示。
3混合云存儲系統分析
3.1數據安全性分析經過混合云存儲系統處理并上傳至公有云存儲空間內的用戶數據通常經過了分割或合并的混淆處理。對于可以直接訪問云端數據的攻擊者來說,數據分割合并處理時生成的元數據信息是存放在私有云內部的,攻擊者無法直接獲取,因此也就無法獲取混淆處理前的原始數據。若只根據訪問記錄來判斷云端數據之間的關聯關系需要耗費大量的時間,而且這個開銷隨著數據量的增大而增大。此外,若用戶選擇對數據文件進行加密處理,則攻擊者還需要獲取文件的解密密鑰。因此,對于僅能獲取公有云存儲空間內數據的攻擊者來說,還原用戶的原始數據需要花費較大的開銷。
3.2數據可用性分析混合云存儲系統中的公有云存儲部分由多個公有云存儲服務組成,用戶的數據文件被冗余地存放在多個公有云存儲空間內。若某個公有云存儲空間內的用戶數據不再可用,系統仍然可以從其他的公有云存儲空間內獲取相同的用戶數據,保證了用戶數據的可用性。
3.3數據訪問隱私保護分析公有云存儲服務提供商獲取的用戶數據訪問隱私可以分為兩種:公有云端數據文件的元數據信息和用戶對公有云存儲服務的使用記錄。服務提供商以獲取到的用戶數據訪問隱私信息作為樣本,利用機器學習和數據挖掘技術對樣本進行學習,從而獲取樣本數據中隱含的信息。為了對用戶數據訪問隱私進行保護,本文所采取的思路是對服務提供商所采集到的數據樣本集合進行偽裝和隱藏,使其無法獲得真實準確的樣本信息從而影響其機器學習結果的準確性。但是考慮到公有云存儲服務提供商必須對服務使用者進行訪問控制身份驗證,因此一部分數據訪問隱私例如訪問客戶端地址、訪問時間等是無法對服務提供商隱藏的。從公有云存儲空間內數據文件的元數據來看,表1是需要進行分割處理的用戶數據文件處理結果,原始文件為66.54MB大小的rar類型壓縮文件。表2是需要進行合并處理的用戶數據文件處理結果,原始文件為4個425.7KB的jpg圖像文件。由表1和表2的處理結果可知,經過混合云存儲系統處理后的用戶數據文件,服務提供商所獲取的大部分元數據信息與原始文件的元數據并不一致。當用戶需要獲取一系列數據來完成一個復雜的業務流程時,對云端數據的請求指令構成了一個請求隊列,該隊列的組成通常具有較為固定的模式,這是由用戶所要進行的業務流程確定的。使用混合云存儲系統對處理后的用戶數據文件進行冗余存放,用戶隨機向不同的服務提供商發送數據訪問請求,從而降低了用戶數據請求操作之間的關聯性,單個服務提供商分析用戶正在進行和潛在地將要進行的操作將更加困難。綜上,本文所提出的方案對云存儲服務提供商所采集到的數據樣本集合產生了較大的影響,因此也會對其機器學習結果的準確性造成影響,從而起到保護用戶的數據訪問隱私的作用。
4結束語
本文對公有云存儲數據訪問隱私保護進行研究,并提出了混合云存儲系統的方案實現對用戶云端數據安全的保護。該系統主要為當前仍未引起重視的用戶數據訪問隱私提供了保護措施,經過混合云存儲系統處理的用戶數據在存放到公有云存儲空間后,可以對數據訪問隱私信息進行混淆,并對數據信息也進行了保護,防止攻擊者或服務提供商獲取真實的用戶數據訪問隱私信息和隱私數據信息,從而實現對于用戶云端數據的保護。由于系統只是完成了初步設計和簡單實現,在進行數據處理的過程中仍然有一些不必要的開銷。因此下一步的工作主要有:①對于現有數據處理方式進行優化,提高系統的效率;②研究其他數據處理技術并引入到系統中,為用戶提供更多云端數據保護的選擇;③將本文所提出的方案抽象為框架,使其能夠與任意符合框架規范的數據處理、底層私有云存儲系統、公有云存儲服務及用戶交互方式進行組合,實現以元數據信息分離和數據訪問隱私保護為核心、可自定義、可擴展的混合云存儲系統方案。
作者:張卓奇郭衛斌單位:華東理工大學信息科學與工程學院