前言:我們精心挑選了數篇優質數據分析分析技術文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。
[關鍵詞]數據倉庫聯機分析處理多維數據分析
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01
一、引言
聯機分析處理(Online Analytical Processing,OLAP)的概念最早是由關系數據庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯機數據訪問和分析。通過對信息(維數據)的多種可能的觀察形式進行快速、穩定一致和交互性的存取,允許管理決策人員對數據進行深入地觀察。OLAP的目標是滿足決策支持或多維環境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。
二、OLAP的多維數據結構
數據在多維空間中的分布總是稀疏的、不均勻的。在事件發生的位置,數據聚合在一起,其密度很大。因此,OLAP系統的開發者要設法解決多維數據空間的數據稀疏和數據聚合問題。事實上,有許多方法可以構造多維數據。
(一)超立方結構。超立方結構指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各個部分都有相同的維屬性。
這種結構可應用在多維數據庫和面向關系數據庫的OLAP系統中,其主要特點是簡化終端用戶的操作。超立方結構有一種變形,即收縮超立方結構。這種結構的數據密度更大,數據的維數更少,并可加入額外的分析維。
(二)多立方結構。在多立方結構中,將大的數據結構分成多個多維結構。這些多維結構是大數據維數的子集,面向某一特定應用對維進行分割,即將超立方結構變為子立方結構。它具有很強的靈活性,提高了數據的分析效率。
一般來說,多立方結構靈活性較大,但超立方結構更易于理解。超立方結構可以提供高水平的報告和多維視圖。多立方結構具有良好的視圖翻轉性和靈活性。多立方結構是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統及預先建立的通用應用傾向于使用多立方結構,以使數據結構能更好地得到調整,滿足常用的應用需求。
許多產品結合了上述兩種結構,它們的數據物理結構是多立方結構,但卻利用超立方結構來進行計算,結合了超立方結構的簡化性和多立方結構的旋轉存儲特性。
三、OLAP的多維數據分析
多維數據分析是指對以多維形式組織起來的數據采取切片、切塊、旋轉和鉆取等各種分析動作,以求剖析數據,使最終用戶能從多個角度、多側面地觀察數據倉庫中的數據,從而深入地了解包含在數據中的信息、內涵。多維分析方式迎合了人們的思維模式,因:
(一)切片。定義1:在多維數組的某一維上選定一維成員的動作成為切片,即在多維數組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設為“維成員vi”),所得的多維數組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。
按照定義1,一次切片一定是原來的維數減1。所以,所得的切片并不一定是二維的“平面”,其維數取決于原來的多維數據的維數,這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。
定義2:選定多維數組的一個二維子集的動作叫做切片,既選定多維數組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數組在維i和維j上的一個二維子集,稱這個二維子集為多維數組在維i和維j上的一個切片,表示為(維i和維j,變量)。
按照定義2,不管原來的維數有多少,數據切片的結果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區間的維成員或全部維成員。從定義2可知:
1.一個多維數組的切片最終是由該數組中除切片所在平面的兩個維之外的其它維的成員值確定的。
2.維是觀察數據的角度,那么切片的作用或結果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數據,因為人的空間想象力有限,所以,對于維數較多的多維數據空間,進行數據切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯系起來,對于一個n維數組,按定義1進行的n-2切片的結果,就必定對應于按定義2進行的某一次切片的結果。
(二)切塊。定義1:在多維數組的某一維上選定某一區間的維成員的動作稱為切塊,即限制多維數組在某一維的取值區間。顯然,當這一區間只取一個維成員時,即得到一個切片。
定義2:選定多維數組的一個三維子集的動作稱為切塊,即選定多維數組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。
(三)旋轉。旋轉既是改變一個報告或者頁面的維方向。例如:旋轉可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。
(四)鉆取。
鉆取處理是使用戶在數據倉庫的多層數據中,能夠通過導航信息而獲得更多的細節性數據,鉆取一般是指向下鉆取。大多數的OLAP工具可以讓用戶鉆取至一個數據集中有更好細節描述的數據層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。
(五)多視圖模式。人們發現,獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數據表所無法提供的。一個OLAP系統,應當采取多種不同的格式顯示數據,使用戶能夠獲得最佳的觀察數據的視角。
四、結語
隨著數據倉庫的發展,OLAP也得到了迅猛的發展。數據倉庫側重于存儲和管理面向決策主題的數據,而OLAP則側重于數據倉庫中的數據分析,并將其轉換成輔助決策信息。OLAP的一個重要特點是多維數據分析,這與數據倉庫的多維數據組織正好形成相互結合、相互補充的關系。將有助于我們解決數據處理中的復雜問題。
參考文獻:
[1]彭木根,數據倉庫技術與實現,電子工業出版社,2002.9.
1計算機大數據分析中云計算技術作用分析
云計算技術可以給提供計算機數據傳遞與共享的條件,融合軟硬件數據保存,促進計算機處理工作更好的開展。云計算技術可以給用戶提供良好的網絡環境與保存空間,處理數據傳遞環節的各項問題。與傳統大數據分析技術相比,云計算計算可以提高大數據分析質量。人們借助云計算技術獲得云終端的數據,切實滿足人們對于數據的需求。現階段計算機市場形成完善的結構體系,圍繞云計算技術推動計算機大數據分析工作的開展,奠定后期云計算技術發展的基礎。目前,人們生活中全面運用云計算技術,基于云計算技術研發的服務器及操作系統方便人們處理各類信息技術。同時,云計算技術數據保存有著較強的安全性,極小可能出現數據丟失情況,滿足人們的實際需求,直接體現出云計算技術的優勢。優化云計算環境下計算機的數據處理中心,就可以不斷提升計算機的云計算能力,讓云計算不僅為網絡信息所用,還在計算機網絡安全中發揮極為重要的作用。目前,計算機的使用人群更為注重的是在高速發達的信息社會,自己的信息,也就是使用計算機網絡的安全性能是否能得到保障,這時候考驗的就是云計系統的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統漏洞問題。系統漏洞這一人為因素可以通過不斷檢索進行漏洞的發現和修補,面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優化系統,最終達到完善的數據處理效果。
2云計算技術下計算機大數據分析面臨的問題
2.1網絡技術安全
由于相關技術的不斷發展,云計算環境下的網絡安全技術正在朝著穩定和成熟的方向發展,但在具體的應用過程中依然表現出一定的網絡安全問題,因此用戶在使用過程中應該做好相關的應對工作。網絡安全問題具體表現在用戶在使用信息傳輸的過程中,一旦出現服務性中斷問題,難以保證數據的安全性,啟動被動保護模式的情況使信息的安全性更加難以保障,這也成為云計算模式下的網絡技術安全中的重點問題,一旦得不到及時有效的解決,用戶在使用過程中就會受到不同程度的威脅。
2.2網絡環境安全
網絡環境安全是保證網絡正常使用,信息傳輸質量有保證的重要前提,一旦網絡環境存在不安全因素,將會引發病毒的入侵和黑客的攻擊。因此網絡環境安全也是云計算技術價值得以發揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會降低人們對計算機的信賴性,甚至在工作和生活中將會在網絡環境安全方面投入更多的成本。
3計算機大數據分析中云計算技術的具體應用
3.1數據傳輸安全分析
在云計算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計算技術來實現計算機大數據分析時,讓數據安全性得到了保證。用戶端數據和數據安全往往呈現出正比關系,隨著應用群體數量的增多,涉及的計算機數據范疇將不斷擴充,假設計算機遭受病毒的攻擊,可以在云計算技術的作用下實現病毒的攔截,以此讓計算機數據安全性得到保證。從云計算技術自身角度來說,其提供的各個服務均是由IaaS基礎設施級服務以及PaaS平臺級服務兩項內容構建而成。首先,IaaS基礎設施級服務其作用在于,可以給用戶提供對應的服務,也就是對各個計算機基礎設備進行操作和應用,其中包含了CPU處理、數據保存、數據傳遞等。其次,PaaS平臺級服務則是指,把云計算中各個服務器及開發環境當作服務,通過PaaS平臺用戶能夠結合自身需求實現對應操作流程的部署和應用。
3.2監督數據資源共享
網絡資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關注的問題,因此在具體的工作和管理中,需要提高云計算網絡安全技術的應用程度,通過不斷創新安全模式,完善相應的防護體系,從而有效消除安全性問題,提升數據傳輸的安全性和穩定性。具體在應用過程中,可以借助云計算技術的優勢,對數據傳輸的整個路徑進行監控,保證傳輸通道環境的安全性,一旦出現問題及時進行預警,有效預防黑客的攻擊,降低網絡安全事故發生的概率。對此,有關部門應該提高重視程度,同時完善相應的監督管理制度,采用科學的管理方式,實現預期的監測目標。
3.3提高數據使用安全
計算機用戶本身的安全意識也是當前需要關注的重要方面,為了進一步提升用戶數據信息和計算機系統的安全系數,需要重視身份認證工作的提升,具體可以使用實名制的方式進行認證處理,從而不斷提升整個網絡結構的安全性。對于網絡應用過程中涉及到的安全問題,可以通過實名追蹤的方式進行可疑目標鎖定,從而有效控制惡意攻擊情況的發生。但在應用過程中也需要重視假人名情況的出現,提高網絡數據信息竊取的預防水平。計算機網絡環境算是一種相對開放的環境,在使用過程中會面向大量的用戶,通過重視用戶的身份認證,可以有效避免用戶對數據的非法訪問。同時在使用者進行計算機登錄和使用的時候,需要對用戶名和密碼進行核實。按照權限的不同,確保數據庫信息的安全有效性。通過對數據庫信息加密處理,可以確保數據庫信息的安全性。這種加密處理可以在原有數據信息的基礎上進行算法的處理改進,使用者可以通過自身的權限獲取想要了解的信息,如果沒有解密方式,不法分子將會難以獲取數據的原始信息。
3.4網絡安全等級防護
在云計算環境下的安全管理中心具備系統管理、安全管理和安全審計等功能,能夠滿足不同云計算環境下不同安全等級的保護要求,并且通過服務層的安全保護框架,實現對不同等級云服務客戶端的安全保護,為使用者提供安全可靠的資源訪問服務。在訪問云服務商時,用戶可通過通信網絡、API接口和Web服務方式訪問云服務器,但是用戶終端系統的安全防護不在網絡安全等級保護框架體系內。在保護框架體系內,資源層和服務層安全是云計算環境安全保護的重點,資源層包括物理資源安全和虛擬資源安全,應按照安全設計要求構建資源層安全保護框架。云計算環境下的網絡安全等級保護要針對不同等級云計算平臺確定不同的安全目標,一般情況下安全保護等級最低為二級,并根據安全目標和等級要求實施安全設計步驟,具體包括:第一步,根據云平臺的租戶數量和業務系統情況確定云計算安全保護標準,制定云計算平臺的安全保護策略,以避免在云計算平臺上發生安全事件;第二步,細化安全技術要求,針對安全計算環境、安全區域邊界、安全通信網絡以及安全管理中心制定出相應的安全保護策略;第三步,根據云計算功能框架中的各層功能和保護要求,制定安全技術機制,使其滿足云計算功能框架的安全保護要求。在完成云計算環境下的網絡安全等級保護設計之后,還應增加虛擬化安全、鏡像安全、接口安全等安全控制點,并采用訪問控制技術、身份識別技術等安全防護技術,實現與云計算平臺上各功能層次的對接,提出各層的安全保護措施。
3.5重視相應程序開發
網絡安全應用程序需要隨著技術的進步和人們生活和工作的需要進行逐步提升,從而及時對病毒程序進行開發和處理,確保計算機系統可以敏銳捕捉到病毒的活動跡象,提升自身的防御能力。通常情況下,對于計算機的服務,內網隱蔽處理,可以提升網站平臺的訪問速度,可以避免不安全網址帶來的不良效應,從而為計算機的安全防御提供一定的屏障。在計算機數據的使用中,由于安全性威脅導致的數據丟失問題,可以通過備份和恢復改善。這種恢復性功能也可以保證數據的一致性和完整性。通常由邏輯備份、動態備份以及靜態備份等幾種情況。計算機黑客數量增多,凈化網絡環境顯然存在較大難度,但通過必要的防范措施依然可以在數據庫信息的保護中起到關鍵作用。而使用防火墻保護工具就能很好的為計算機網絡提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。
關鍵詞 數據挖掘 基因序列 生物信息學 遺傳疾病 患病家族連鎖分析
在生物信息學的成果的理論基礎之上,通過統計的方法查找未知的生物化學功能的疾病基因的位置。這個方法預先通過患病家族連鎖分析,再推斷包含這些基因的染色體區域片段,然后檢查該區域來尋找基因[1]。
數據挖掘在DNA數據分析的發展狀況
現今所采用的是分子生物學與微電子技術相結合的核酸分析檢測技術[2]。DNA芯片技術的基本原理是將cDNA或寡核昔酸探針以105~106位點/cm2>/sup>的密度結合在固相支持物(即芯片)上,每個位點上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標記的待測樣品DNA,RNA或cDNA在芯片上進行雜交,然后用激光共聚焦顯微鏡對芯片進行掃描,并配合計算機系統對雜交信號做出比較和檢測,從而迅速得出所需的信息。
基因數據挖掘常用的方法:①核酸與蛋白質比較的預測分析:蛋白質序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區域和保守性位點,尋找二者可能的分子進化關系。進一步的比對是將多個蛋白質或核酸同時進行比較,尋找這些有進化關系的序列之間共同的保守區域、位點和profile,從而探索導致它們產生共同功能的序列模式。此外,還可以把蛋白質序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質序列與具有三維結構信息的蛋白質相比,從而獲得蛋白質折疊類型的信息。②針對核酸序列的預測方法:針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據的支持。一般而言,在重復片段頻繁出現的區域里,基因編碼區和調控區不太可能出現;如果某段DN段的假想產物與某個已知的蛋白質或其他基因的產物具有較高序列相似性的話,那么這個DN段就非常可能屬于外顯子片段;在一段DNA序列上出現統計上的規律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質編碼區的有力證據;其他的證據包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。
案例分析
疾病是由于基因的片段內的某個位置存在或發生改變而引起的,也就是發生突變。能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數據挖掘技術的支持。對基因的數據挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關系。
方法的選擇:筆者在設計中選用單純的DNA序列進行比較,基因在計算機的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進行對基因工作者的提取成果創建一級數據庫,使用文件修整的方法進行數據的清洗,以滿足數據在二級數據庫中的一致性。同時在文件比較過程中,生成某兩個數據文件的差異狀況,保存在二級數據庫庫中,進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認為這個位置的某個類型引起疾病的發生。從醫學院得到一些基因片段文件信息和患者(所有者)患病情況。
系統的實現:基因片段在計算機中以文件形式存儲,用文件名標識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機數據庫中。在程序測試過程中,將片段復制成40份,對其中部分文件的序列進行稍作修改,對所有患者的患病狀況進行稍作修改,以創造測試環境。顯示在與基因數據挖掘軟件同在一根目錄下的序列文件的集合。
其中一個文件所存儲的基因信息,見圖1。
啟動統計程序界面,單擊清空數據庫中的臨時用表數據,將數據庫中有可能的雜音信息去掉。并對其中的所有文件進行統計前片段剪切,使所有片段的起始地址和長度都相同,避免發生序列移位。
沒有進行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設置進行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統計文件的所有信息都被統計。
單擊結果顯示按鈕,可以見到程序以表格和條形圖標方式。可以看到1、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關聯的可能性就越大。
如果用戶想要在初步統計結果的基礎上,按照數據庫中所有者的疾病狀況進行詳細統計的話,單擊菜單欄的詳細統計按鈕,選擇按疾病詳細統計,則將彈出窗口。
選擇弱視,輸入,則在文本框中顯示與其關聯的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。
由此,用戶可以根據本系統所給出的預測對弱視遺傳疾病與序列中的特定位置,選擇適當算法進行進一步的計算及檢驗,證明預測結果是否符合關聯理論。數據挖掘方法體系中的智能聚類的相關技術則可較好的解決類別數判定、結果驗證等問題。
結 論
對于生物信息或基因的數據挖掘和通常的數據挖掘相比,無論在數據的復雜程度、數據量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,需要一些新的和好的算法;但技術和軟件還遠沒有達到成熟的地步,因此需要不斷探索及研究。
參考文獻
1 黃詒森.生物化學[M].北京:人民衛生出版社,2002:29-37.