前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)企業(yè)數(shù)據(jù)存儲(chǔ)方案文章,供您閱讀參考。期待這些文章能為您帶來(lái)啟發(fā),助您在寫作的道路上更上一層樓。
【關(guān)鍵詞】海量數(shù)據(jù);電力企業(yè);存儲(chǔ)
1 引言
在電力行業(yè),堅(jiān)強(qiáng)智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度、深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合,信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”,支撐新一代電網(wǎng)生產(chǎn)和管理發(fā)展。目前,電網(wǎng)公司已初步建成了國(guó)內(nèi)領(lǐng)先、國(guó)際一流的信息集成平臺(tái)。隨著各地集中式數(shù)據(jù)中心的陸續(xù)投運(yùn),一級(jí)部署業(yè)務(wù)應(yīng)用范圍的拓展,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中心的上線運(yùn)行,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從總量和種類上都已初具規(guī)模。隨著后續(xù)智能電表的逐步普及,電網(wǎng)業(yè)務(wù)數(shù)據(jù)將從時(shí)效性層面進(jìn)一步豐富和拓展。電網(wǎng)業(yè)務(wù)數(shù)據(jù)將跨入海量數(shù)據(jù)時(shí)代,如何處理這些海量數(shù)據(jù)已成為電力企業(yè)信息管理首要解決的問(wèn)題。而在海量數(shù)據(jù)的處理中,如何有效地保存和恢復(fù)數(shù)據(jù)就成了這些問(wèn)題當(dāng)中的首要問(wèn)題。
2 海量數(shù)據(jù)特征
海量數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)來(lái)進(jìn)行劃分,可以劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類。
(1)結(jié)構(gòu)化數(shù)據(jù):簡(jiǎn)單來(lái)說(shuō)就是數(shù)據(jù)庫(kù), 即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。結(jié)合到典型場(chǎng)景中更容易理解,比如企業(yè)ERP、財(cái)務(wù)系統(tǒng);醫(yī)療HIS數(shù)據(jù)庫(kù);教育一卡通;政府行政審批;其他核心數(shù)據(jù)庫(kù)等
(2)非結(jié)構(gòu)化數(shù)據(jù):相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。 非結(jié)構(gòu)化數(shù)據(jù)庫(kù)是指其字段長(zhǎng)度可變,并且每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫(kù),用它不僅可以處理結(jié)構(gòu)化數(shù)據(jù)(如數(shù)字、符號(hào)等信息)而且更適合處理非結(jié)構(gòu)化數(shù)據(jù)(全文文本、圖象、聲音、影視、超媒體等信息)
按照數(shù)據(jù)的時(shí)效性而言,海量數(shù)據(jù)又可劃分為實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)兩類。
實(shí)時(shí)數(shù)據(jù):實(shí)時(shí)數(shù)據(jù)一般用于金融、移動(dòng)和互聯(lián)網(wǎng)B2C等產(chǎn)品,往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗(yàn)的目的。要滿足這樣的需求,可以采用精心設(shè)計(jì)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)組成并行處理集群,或者采用一些內(nèi)存計(jì)算平臺(tái),或者采用HDD的架構(gòu),這些無(wú)疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實(shí)時(shí)分析工具有EMC的Greenplum、SAP的HANA等。
離線數(shù)據(jù):對(duì)于大多數(shù)反饋時(shí)間要求不是那么嚴(yán)苛的應(yīng)用,比如離線統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、搜索引擎的反向索引計(jì)算、推薦引擎的計(jì)算等,應(yīng)采用離線分析的方式,通過(guò)數(shù)據(jù)采集工具將日志數(shù)據(jù)導(dǎo)入專用的分析平臺(tái)。但面對(duì)海量數(shù)據(jù),傳統(tǒng)的ETL工具往往徹底失效,主要原因是數(shù)據(jù)格式轉(zhuǎn)換的開(kāi)銷太大,在性能上無(wú)法滿足海量數(shù)據(jù)的采集需求。互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有Facebook開(kāi)源的Scribe、LinkedIn開(kāi)源的Kafka、淘寶開(kāi)源的Timetunnel、Hadoop的Chukwa等,均可以滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求,并將這些數(shù)據(jù)上載到Hadoop中央系統(tǒng)上。
3 企業(yè)海量數(shù)據(jù)存儲(chǔ)現(xiàn)狀
3.1 海量數(shù)據(jù)導(dǎo)致存儲(chǔ)成本、維護(hù)管理成本不斷增加
大型企業(yè)都面臨著業(yè)務(wù)和IT投入的壓力,與以往相比,系統(tǒng)的性能/價(jià)格比更加受關(guān)注。GIGA研究表明,ROI(投資回報(bào)率)越來(lái)越受到重視。海量數(shù)據(jù)使得企業(yè)因?yàn)楸4娲罅吭诰€數(shù)據(jù)以及數(shù)據(jù)膨脹而需要在存儲(chǔ)硬件上大量投資,雖然存儲(chǔ)設(shè)備的成本在下降,但存儲(chǔ)的總體成本卻在不斷增加,并且正在成為最大的一筆IT開(kāi)支之一。另一方面,海量數(shù)據(jù)使DBA陷入持續(xù)的數(shù)據(jù)庫(kù)管理維護(hù)工作當(dāng)中。
3.2 海量數(shù)據(jù)缺乏快速備份與災(zāi)難恢復(fù)機(jī)制
傳統(tǒng)的數(shù)據(jù)庫(kù)備份技術(shù),如通常采用的磁帶備份方式,不能運(yùn)用于海量數(shù)據(jù),因?yàn)榇艓浞輰⑹箓浞輹r(shí)間增加,需要幾小時(shí)-幾天,不僅影響了生產(chǎn),而且增加了備份的難度,使得備份/恢復(fù)變得緩慢而且不可靠,幾乎無(wú)法在固定的時(shí)間窗口完成備份工作。另外,第三方備份軟件隱含的成本代價(jià)如成本開(kāi)銷、復(fù)雜度、昂貴的實(shí)施等也是企業(yè)需要考慮的。因此海量數(shù)據(jù)安全顯得異常重要,只有通過(guò)引入有效的備份、方便高效的備份恢復(fù)技術(shù),才能滿足海量數(shù)據(jù)安全的需要。
4 存儲(chǔ)解決方案概述
在海量數(shù)據(jù)存儲(chǔ)中我們主要考慮的是大數(shù)據(jù)的存儲(chǔ),雖然現(xiàn)行的商業(yè)平臺(tái)也能滿足非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),但問(wèn)題主要出在系統(tǒng)可擴(kuò)展性和建設(shè)費(fèi)用上。對(duì)于龐大的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)產(chǎn)生的I/O瓶頸問(wèn)題和昂貴的服務(wù)器價(jià)格不得不使我們另謀出路。
Hadoop的分布式文件系統(tǒng)HDFS出現(xiàn)恰好解決了商業(yè)平臺(tái)中的I/O瓶頸和服務(wù)器價(jià)格昂貴問(wèn)題。Hadoop的優(yōu)勢(shì)體現(xiàn)在以下幾個(gè)方面:
(1)Hadoop依賴于低端服務(wù)器甚至是普通計(jì)算機(jī),相對(duì)于商業(yè)平臺(tái)的高昂成本,它的成本要低得多,幾乎可以說(shuō)任何人都可以使用它,哪怕是信息化成本預(yù)算較少的小微企業(yè);
(2)HDFS與Map/Reduce緊密集成是Hadoop分布式計(jì)算的存儲(chǔ)基石。它有自己明確的設(shè)計(jì)目標(biāo)那就是支持大的數(shù)據(jù)文件大至T級(jí),并且這些文件以順序讀取為主,以文件存/讀的高吞吐量為目標(biāo)。在使用HDFS分布式文件系統(tǒng)存儲(chǔ)非結(jié)構(gòu)化文件后,將提高我們系統(tǒng)的存儲(chǔ)文件速度;
(3)HDFS的數(shù)據(jù)恢復(fù)能力也保證了系統(tǒng)的安全可靠性,可靠性體現(xiàn)在它假設(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。
(4)同時(shí)支持存儲(chǔ)節(jié)點(diǎn)的熱插拔和可以在普通PC機(jī)上存儲(chǔ)非結(jié)構(gòu)化文件,這不但提高了系統(tǒng)的擴(kuò)展靈活性,還大大降低了企業(yè)在硬件方面的投入
5 應(yīng)用架構(gòu)
在本存儲(chǔ)解決方案中,我們選擇了Hadoop作為數(shù)據(jù)文件存儲(chǔ)機(jī)制,Hadoop中的HDFS存儲(chǔ)數(shù)據(jù)可以選擇普通的PC機(jī)器作為數(shù)據(jù)節(jié)點(diǎn),這大大的降低了存儲(chǔ)數(shù)據(jù)所需要昂貴存儲(chǔ)設(shè)備價(jià)格,并且在數(shù)據(jù)存儲(chǔ)過(guò)程中,HDFS擁有很好的數(shù)據(jù)容災(zāi)機(jī)制。
6 HDFS
Hadoop的存儲(chǔ)主要使用HDFS來(lái)進(jìn)行管理,HDFS是一個(gè)分布式文件存儲(chǔ)系統(tǒng)。HDFS起源于Apache Nutch Web 搜索引擎項(xiàng)目。
對(duì)于HDFS分布式文件系統(tǒng)中的塊進(jìn)行抽象會(huì)帶來(lái)很多好處:
(1)文件的大小可以大于網(wǎng)絡(luò)中任意一個(gè)磁盤的容量,文件的所有塊不需要存儲(chǔ)在同一個(gè)磁盤上,因此他們可以利用集群上的任意一個(gè)磁盤進(jìn)行存儲(chǔ)。
(2)使用塊抽象而非整個(gè)文件作為存儲(chǔ)單元,大大的簡(jiǎn)化了存儲(chǔ)系統(tǒng)的設(shè)計(jì)。簡(jiǎn)化是所有系統(tǒng)的目標(biāo),但對(duì)于故障種類繁多的分布式系統(tǒng)來(lái)說(shuō)尤為重要。
(3)塊非常適合用于數(shù)據(jù)備份,進(jìn)而提高數(shù)據(jù)容錯(cuò)能力和可用性。
6.1 HDFS架構(gòu)
6.2 HDFS文件存儲(chǔ)方式使用大塊的原因
HDFS的塊比磁盤大,其目的是為了最小化尋址的開(kāi)銷。如果塊設(shè)置的足夠大,從磁盤傳輸數(shù)據(jù)的時(shí)間可以明顯的大于定位這個(gè)塊開(kāi)始位置所需的時(shí)間。這樣,傳輸一個(gè)由多個(gè)塊組成的文件的時(shí)間取決于磁盤的傳輸速率,由此可見(jiàn)適當(dāng)?shù)脑O(shè)置磁盤塊空間大小可以加快數(shù)據(jù)讀寫效率。
6.3 HDFS的集群管理模式
HDFS集群有兩類節(jié)點(diǎn),并以管理者――工作者模式運(yùn)行,即一個(gè)namenode(管理者)和多個(gè)datanode(工作者)。管理者管理文件系統(tǒng)的命名空間,它維護(hù)著文件系統(tǒng)樹及整棵樹內(nèi)所有的文件和目錄。這些信息以兩個(gè)文件形式永久保存在本地磁盤上:命名空間鏡像和編輯文件日志。工作者也記錄著每個(gè)文件中各個(gè)塊所有在的數(shù)據(jù)節(jié)點(diǎn)信息,但它不永久保存塊的位置信息,因?yàn)檫@些信息會(huì)在系統(tǒng)啟動(dòng)時(shí)由數(shù)據(jù)節(jié)點(diǎn)重建。
6.4 HDFS文件寫入方式
客戶端通過(guò)調(diào)用HDFS類DistributedFileSystem對(duì)象調(diào)用create()函數(shù)來(lái)創(chuàng)建文件,在此時(shí)文件系統(tǒng)的命名空間中創(chuàng)建了一個(gè)新文件,但該文件還沒(méi)有相應(yīng)的數(shù)據(jù)塊。管理者(namenode)執(zhí)行各種不同的檢查確保當(dāng)前創(chuàng)建的文件不存在,并且客戶端有創(chuàng)建該文件的權(quán)限,如果檢查通過(guò)則創(chuàng)建新文件記錄;否則,文件創(chuàng)建失敗并拋出異常。在客戶端寫入數(shù)據(jù)時(shí),數(shù)據(jù)被分成一個(gè)個(gè)的數(shù)據(jù)包,并寫入內(nèi)部隊(duì)列,HDFS的DataStreamer處理數(shù)據(jù)隊(duì)列,它的責(zé)任是根據(jù)工作者(datanode)的隊(duì)列列表要求管理者(namenode)分配適合的新塊來(lái)存儲(chǔ)數(shù)據(jù)備份。如下圖
7 實(shí)現(xiàn)功能
海量數(shù)據(jù)存儲(chǔ)部分主要包含了三部分的功能:數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)與備份、數(shù)據(jù)分析,如圖所示:
7.1 數(shù)據(jù)采集
海量數(shù)據(jù)存儲(chǔ)采用開(kāi)放上傳接口的方式進(jìn)行被動(dòng)數(shù)據(jù)采集,各業(yè)務(wù)平臺(tái)通過(guò)向上傳接口傳遞業(yè)務(wù)平臺(tái)標(biāo)識(shí)、文件信息標(biāo)識(shí)和文件信息的二進(jìn)制流的方式將文件打包傳送到非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái),非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)通過(guò)業(yè)務(wù)平臺(tái)標(biāo)識(shí)對(duì)傳輸過(guò)來(lái)的文件進(jìn)行分類解碼存儲(chǔ)。
7.2 數(shù)據(jù)存儲(chǔ)與備份
海量數(shù)據(jù)管理在接收到各業(yè)務(wù)平臺(tái)發(fā)送過(guò)來(lái)的文件后,根據(jù)業(yè)務(wù)平臺(tái)標(biāo)識(shí)在HBASE中生成文件信息數(shù)據(jù),同時(shí)將文件存儲(chǔ)至HBase中。
7.3 數(shù)據(jù)分析
基于已存儲(chǔ)的數(shù)據(jù),可以分析各業(yè)務(wù)平臺(tái)的數(shù)據(jù)量,數(shù)據(jù)高峰的周期,從而適時(shí)調(diào)整數(shù)據(jù)存儲(chǔ)策略,為不同的業(yè)務(wù)應(yīng)用制定不同的存儲(chǔ)計(jì)劃,充分體現(xiàn)系統(tǒng)存儲(chǔ)的靈活性,提升海量數(shù)據(jù)的存儲(chǔ)效率。
8 方案總結(jié)
關(guān)鍵詞:企業(yè) 數(shù)據(jù)保護(hù) 數(shù)據(jù)存儲(chǔ)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973(2011)008-075-02
80年代以后,以IT技術(shù)為代表的信息產(chǎn)業(yè)迅速崛起,給我們的生活和思維帶來(lái)了強(qiáng)大沖擊。與此同時(shí),順應(yīng)信息發(fā)展的需求,各種企業(yè)也開(kāi)始紛紛建立起屬于自己的信息網(wǎng)絡(luò)平臺(tái),包括電子商務(wù)和網(wǎng)站管理等系統(tǒng)。于此而來(lái)的是相應(yīng)數(shù)據(jù)量的不斷增長(zhǎng)以及新的數(shù)據(jù)管理的應(yīng)用而生,數(shù)據(jù)保護(hù)和存儲(chǔ)安全問(wèn)題開(kāi)始愈來(lái)愈受到各企業(yè)的關(guān)注和深思。目前,企業(yè)數(shù)據(jù)庫(kù)己呈現(xiàn)出了不可預(yù)計(jì)龐大的增長(zhǎng)態(tài)勢(shì),數(shù)據(jù)正日益成為公司的實(shí)際資產(chǎn)之一。據(jù)相關(guān)組織的保守估計(jì)推測(cè),企業(yè)數(shù)據(jù)每年大約增加80%。
1 存在的問(wèn)題
20世紀(jì),企業(yè)對(duì)重要文件的保護(hù)主要是借助于保險(xiǎn)柜保存,并派人保護(hù)。到了2l世紀(jì),企業(yè)開(kāi)始全面實(shí)行自動(dòng)化辦公,計(jì)算機(jī)網(wǎng)絡(luò)成為信息的數(shù)據(jù)化處理與存放的工具。然而,由于計(jì)算機(jī)的共享性和擴(kuò)散性特性,使得信息在處理、存儲(chǔ)、傳輸?shù)倪^(guò)程中存在很容易被泄露、竊取的風(fēng)險(xiǎn)。據(jù)調(diào)查,至2007年上半年,瑞星公司接受求助的受害用戶已經(jīng)達(dá)到10多萬(wàn)人。接著信息保密技術(shù)跟進(jìn),企業(yè)的信息安全隱患更加得到重視,管理者不再簡(jiǎn)單滿足于防火墻等初級(jí)防御手段,企業(yè)數(shù)據(jù)保護(hù)和存儲(chǔ)安全解決新方法亟待出現(xiàn)。當(dāng)前出現(xiàn)的問(wèn)題有:(1)移動(dòng)磁盤泄密,造成該現(xiàn)象的主因是將數(shù)據(jù)存放于不安全的移動(dòng)磁盤中,并且沒(méi)有將數(shù)據(jù)進(jìn)行有效的加密。(2)word文檔泄密,主要是一些破解軟件乘機(jī)下手,使數(shù)據(jù)丟失。(3)打印機(jī)泄密,現(xiàn)在企業(yè)大多采用碎紙機(jī)可以將無(wú)用的或遺漏的文件切成粉末,使之無(wú)法還原,但是虛擬中的粉碎我們視而不見(jiàn)。(4)郵件泄密,它是通過(guò)一種網(wǎng)絡(luò)病毒來(lái)偽造收件人的地址,從而欺騙閱讀者。根據(jù)最新IT Policy ComPliance Gro-up報(bào)告顯示:公開(kāi)報(bào)道數(shù)據(jù)丟失的企業(yè)預(yù)計(jì)將會(huì)導(dǎo)致客戶及收入降低8%;對(duì)于上市公司而言,每股股價(jià)會(huì)下降8%。
2 企業(yè)數(shù)據(jù)保護(hù)措施
2.1數(shù)據(jù)備份
對(duì)于一個(gè)企業(yè)來(lái)說(shuō),提供可靠的數(shù)據(jù)保護(hù)是至關(guān)重要的,也是企業(yè)核心競(jìng)爭(zhēng)力的重要王牌。其中最有效的保護(hù)數(shù)據(jù)的手段是數(shù)據(jù)備份。而以磁帶系統(tǒng)為核心的數(shù)據(jù)備份是企業(yè)數(shù)據(jù)保護(hù)的一個(gè)重要手段。該系統(tǒng)不僅能保證大容量數(shù)據(jù)的安全,并且在數(shù)據(jù)發(fā)生災(zāi)變時(shí),可以在短時(shí)間內(nèi)完成數(shù)據(jù)的恢復(fù),保證企業(yè)中各種業(yè)務(wù)系統(tǒng)的正常運(yùn)做,是數(shù)據(jù)安全保護(hù)的必然選擇。有權(quán)威統(tǒng)計(jì)表明:93%的公司會(huì)由于為期10天或以上的數(shù)據(jù)中心災(zāi)難,而導(dǎo)致在災(zāi)難發(fā)生的一年內(nèi)破產(chǎn)。為此,中小企業(yè)需要適合自己的數(shù)據(jù)保護(hù)解決方案,以保證業(yè)務(wù)的連續(xù)性運(yùn)作。
2.2生物特征識(shí)別技術(shù)
隨著電子信息量的急速膨脹,電子文檔的保護(hù)也成為全球關(guān)注的問(wèn)題。在電子文檔保護(hù)中使用生物特征識(shí)別技術(shù)來(lái)加以保護(hù),也被普遍認(rèn)為是電子文檔保護(hù)的最優(yōu)方案。但為了方便文檔在合法前提下共享的便利性,必須以解密密鑰的生物特征模板以某種形式整合到文檔內(nèi)部,這形成了很大的破解風(fēng)險(xiǎn)。尋找更嚴(yán)密的電子文檔保護(hù)方法,也成為電子信息安全領(lǐng)域中具有挑戰(zhàn)性的研究之一。清華大學(xué)研究人員設(shè)計(jì)了一種基于指紋身份驗(yàn)證技術(shù)和移動(dòng)密鑰的電子文檔保護(hù)方法。該方法在執(zhí)行身份驗(yàn)證時(shí),不但要求用戶提供指紋作為驗(yàn)證依據(jù),而且要求用戶提供與本人身份相符的移動(dòng)密鑰。
2.3企業(yè)機(jī)密電子數(shù)據(jù)保護(hù)
企業(yè)機(jī)密電子數(shù)據(jù)和企業(yè)發(fā)展密切相關(guān),加強(qiáng)對(duì)這些電子數(shù)據(jù)的安全存取保護(hù)是目前企業(yè)最為關(guān)心的一個(gè)問(wèn)題。根據(jù)企業(yè)實(shí)際安全需要,采用非主動(dòng)加密的思想,通過(guò)完善的網(wǎng)絡(luò)安全管理結(jié)構(gòu),密鑰管理服務(wù)器和電子數(shù)據(jù)的安全存取機(jī)制,建立了一種適應(yīng)企業(yè)安全需求的企業(yè)電子數(shù)據(jù)安全監(jiān)控系統(tǒng)。該系統(tǒng)通過(guò)密鑰服務(wù)器實(shí)現(xiàn)對(duì)密鑰的透明訪問(wèn),以及對(duì)企業(yè)機(jī)密電子數(shù)據(jù)的透明加解密處理,確保了企業(yè)機(jī)密電子數(shù)據(jù)的安全。如CDP(Contimuous Data Pro-tection,持續(xù)數(shù)據(jù)保護(hù))計(jì)劃。最近,SafeNet和Aladdin正式進(jìn)行合并,公司將保護(hù)全球最多的電子銀行交易、提供最多的數(shù)字身份認(rèn)證產(chǎn)品、提供最多的軟件保護(hù)產(chǎn)品,將進(jìn)一步帶動(dòng)機(jī)密電子數(shù)據(jù)保護(hù)的大發(fā)展。而賽門鐵克公司也推出了市場(chǎng)領(lǐng)先的企業(yè)數(shù)據(jù)保護(hù)解決方案Veritas NetBackup 6.5。憑借NetBackup平臺(tái),企業(yè)可獲得前所未有的靈活性和多樣選擇等最佳性能,幫助企業(yè)在復(fù)制、快照、持續(xù)數(shù)據(jù)保護(hù)、重復(fù)數(shù)據(jù)刪除、加密、虛擬磁帶和傳統(tǒng)磁帶中選擇一流的技術(shù)。
3 企業(yè)數(shù)據(jù)存儲(chǔ)安全措施
存儲(chǔ)是一種服務(wù),這是比較新的概念。從數(shù)據(jù)中心到桌面及整個(gè)技術(shù)存儲(chǔ)線,關(guān)鍵解決圍繞在信息周邊的安全問(wèn)題。過(guò)去,存儲(chǔ)被看成是受至于服務(wù)器訪問(wèn)控制和文件系統(tǒng)特權(quán)保護(hù)的“子系統(tǒng)”,而現(xiàn)在,存儲(chǔ)已成為基于高速的光纖通道、光學(xué)傳輸?shù)葹橐惑w的智能的、多協(xié)議的網(wǎng)絡(luò)服務(wù)。安全存取技術(shù)分析是以電子計(jì)算機(jī)主要的安全技術(shù)為主線,針對(duì)不同的問(wèn)題提出相應(yīng)的解決方法的,如企業(yè)電子數(shù)據(jù)的安全存取保護(hù)。目前,企業(yè)電子數(shù)據(jù)安全存取解決方法,主要的有邏輯加密盤技術(shù)、文件系統(tǒng)監(jiān)視器、電子文件保險(xiǎn)箱。其中邏輯加密盤技術(shù)的基本思想是在操作系統(tǒng)上增加設(shè)備管理的內(nèi)核服務(wù),為用戶提供用于保存電子文檔的虛擬盤。文件系統(tǒng)監(jiān)視器主要是監(jiān)視所有文件系統(tǒng)中活動(dòng)的應(yīng)用程序。電子文件保險(xiǎn)箱主要保證電子文檔的存儲(chǔ)安全,相當(dāng)于將電子文檔存放在一個(gè)“保險(xiǎn)箱”中。但僅僅這些努力是不夠的,對(duì)于一個(gè)企業(yè)的生死存亡來(lái)說(shuō),機(jī)密電子數(shù)據(jù)的存取是絕對(duì)要重視的。
3.1虛擬磁帶庫(kù)
對(duì)于小型企業(yè)來(lái)說(shuō),選擇存儲(chǔ)產(chǎn)品應(yīng)該從兩點(diǎn)來(lái)考慮,首先要根據(jù)業(yè)務(wù)實(shí)際產(chǎn)生的數(shù)據(jù)量;其次是考慮業(yè)務(wù)數(shù)據(jù)的增長(zhǎng)量。目前比較流行的存儲(chǔ)系統(tǒng)解決方案有磁盤陣列、虛擬磁帶庫(kù)和磁帶庫(kù)等。借助基于虛擬磁帶庫(kù)的磁盤備份,中小企業(yè)就可以實(shí)施更快的流程,并且在查找、檢索數(shù)據(jù)時(shí)幾乎不會(huì)出現(xiàn)差錯(cuò),減少了對(duì)以往磁帶備份的依賴,在節(jié)省大量成本的同時(shí),還可獲得更可靠的備份流程,讓數(shù)據(jù)保護(hù)更加簡(jiǎn)單。如AIO+D2D+自動(dòng)加載機(jī)的出現(xiàn)。AIO是惠普公司推出的一款面向中小企業(yè)的一體化網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)。借助AIO,中小企業(yè)無(wú)需中斷應(yīng)用即可進(jìn)行備份,實(shí)現(xiàn)可靠的數(shù)據(jù)保護(hù)。現(xiàn)在,借助HP StorageWorksVLSl000i和迷你虛擬磁帶庫(kù)產(chǎn)品,中等規(guī)模企業(yè)和遠(yuǎn)程公司、分公司得以使用全新的解決方案。
EMC Isilon:橫向擴(kuò)展 性能突出
大數(shù)據(jù)存儲(chǔ)不是一類單獨(dú)的產(chǎn)品,它有很多實(shí)現(xiàn)方式。EMC Isilon存儲(chǔ)事業(yè)部總經(jīng)理?xiàng)钐m江概括說(shuō),大數(shù)據(jù)存儲(chǔ)應(yīng)該具有以下一些特性:海量數(shù)據(jù)存儲(chǔ)能力,可輕松管理PB級(jí)乃至數(shù)十PB的存儲(chǔ)容量;具有全局命名空間,所有應(yīng)用可以看到統(tǒng)一的文件系統(tǒng)視圖;支持標(biāo)準(zhǔn)接口,應(yīng)用無(wú)需修改可直接運(yùn)行,并提供API接口進(jìn)行面向?qū)ο蟮墓芾恚蛔x寫性能優(yōu)異,聚合帶寬高達(dá)數(shù)GB乃至數(shù)十GB;易于管理維護(hù),無(wú)需中斷業(yè)務(wù)即可輕松實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展;基于開(kāi)放架構(gòu),可以運(yùn)行于任何開(kāi)放架構(gòu)的硬件之上;具有多級(jí)數(shù)據(jù)冗余,支持硬件與軟件冗余保護(hù),數(shù)據(jù)具有高可靠性;采用多級(jí)存儲(chǔ)備份,可靈活支持SSD、SAS、SATA和磁帶庫(kù)的統(tǒng)一管理。
通過(guò)與中國(guó)用戶的接觸,楊蘭江認(rèn)為,當(dāng)前中國(guó)用戶最迫切需要了解的是大數(shù)據(jù)存儲(chǔ)有哪些分類,而在大數(shù)據(jù)應(yīng)用方面面臨的最大障礙就是如何在眾多平臺(tái)中找到適合自己的解決方案。
EMC針對(duì)不同的應(yīng)用需求可以提供不同的解決方案:對(duì)于能源、媒體、生命科學(xué)、醫(yī)療影像、GIS、視頻監(jiān)控、HPC應(yīng)用、某些歸檔應(yīng)用等,EMC會(huì)首推以Isilon存儲(chǔ)為核心的大數(shù)據(jù)存儲(chǔ)解決方案;對(duì)于虛擬化以及具有很多小文件的應(yīng)用,EMC將首推以VNX、XtremIO為核心的大數(shù)據(jù)存儲(chǔ)解決方案;對(duì)于大數(shù)據(jù)分析一類的應(yīng)用需求,EMC會(huì)綜合考慮客戶的具體需求,推薦Pivotal、Isilon等一體化的解決方案。在此,具體介紹一下EMC用于大數(shù)據(jù)的橫向擴(kuò)展NAS解決方案——EMC Isilon,其設(shè)計(jì)目標(biāo)是簡(jiǎn)化對(duì)大數(shù)據(jù)存儲(chǔ)基礎(chǔ)架構(gòu)的管理,為大數(shù)據(jù)提供靈活的可擴(kuò)展平臺(tái),進(jìn)一步提高大數(shù)據(jù)存儲(chǔ)的效率,降低成本。
EMC Isilon存儲(chǔ)解決方案主要包括三部分:EMC Isilon平臺(tái)節(jié)點(diǎn)和加速器,可從單個(gè)文件系統(tǒng)進(jìn)行大數(shù)據(jù)存儲(chǔ),從而服務(wù)于 I/O 密集型應(yīng)用程序、存儲(chǔ)和近線歸檔;EMC Isilon基礎(chǔ)架構(gòu)軟件是一個(gè)強(qiáng)大的工具,可幫助用戶在大數(shù)據(jù)環(huán)境中保護(hù)數(shù)據(jù)、控制成本并優(yōu)化存儲(chǔ)資源和系統(tǒng)性能;EMC Isilon OneFS操作系統(tǒng)可在集群中跨節(jié)點(diǎn)智能地整合文件系統(tǒng)、卷管理器和數(shù)據(jù)保護(hù)功能。
楊蘭江表示,企業(yè)用戶選擇EMC Isilon的理由可以歸納為以下幾點(diǎn)。第一,簡(jiǎn)化管理,增強(qiáng)易用性。與傳統(tǒng)NAS相比,無(wú)論未來(lái)存儲(chǔ)容量、性能增加到何種程度,EMC Isilon的安裝、管理和擴(kuò)展都會(huì)保持其簡(jiǎn)單性。第二,強(qiáng)大的可擴(kuò)展性。EMC Isilon可以滿足非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和分析需求,單個(gè)文件系統(tǒng)和卷中每個(gè)集群的容量為18TB~15PB。第三,更高的處理效率,更低的成本。EMC Isilon在單個(gè)共享存儲(chǔ)池中的利用率超過(guò)80%,而EMC Isilon SmartPools軟件可進(jìn)一步優(yōu)化資源,提供自動(dòng)存儲(chǔ)分層,保證存儲(chǔ)的高性能、經(jīng)濟(jì)性。第四,靈活的互操作性。EMC Isilon支持眾多行業(yè)標(biāo)準(zhǔn),簡(jiǎn)化工作流。它還提供了API可以向客戶和ISV提供OneFS控制接口,提供Isilon集群的自動(dòng)化、協(xié)調(diào)和資源調(diào)配能力。
EMC Isilon大數(shù)據(jù)存儲(chǔ)解決方案已經(jīng)在醫(yī)療、制造、高校和科研機(jī)構(gòu)中有了許多成功應(yīng)用。
方案點(diǎn)評(píng)
EMC Isilon是一個(gè)強(qiáng)大但簡(jiǎn)單的橫向擴(kuò)展NAS方案,適用于希望投資數(shù)據(jù)管理而不是單純存儲(chǔ)的企業(yè)。當(dāng)初,EMC將收購(gòu)來(lái)的分布式數(shù)據(jù)倉(cāng)庫(kù)軟件廠商Greenplum的軟件與Isilon存儲(chǔ)組合成了EMC最早的大數(shù)據(jù)解決方案。用戶既可以分開(kāi)選擇Greenplum軟件或Isilon存儲(chǔ),也可以選擇由Greenplum軟件和Isilon存儲(chǔ)組成的一體機(jī)解決方案。現(xiàn)在,Greenplum軟件雖然已歸Pivotal公司,但EMC是Pivotal的經(jīng)銷商與合作伙伴,Greenplum與Isilon存儲(chǔ)的組合方案并不會(huì)因此受到影響。
HDS UCP:統(tǒng)一平臺(tái) 應(yīng)用優(yōu)化
HDS中國(guó)區(qū)解決方案與專業(yè)服務(wù)事業(yè)部總監(jiān)陳戈認(rèn)為,大數(shù)據(jù)存儲(chǔ)應(yīng)該是一個(gè)解決方案:“大數(shù)據(jù)解決方案是由基礎(chǔ)架構(gòu)的各部件組成的,包含數(shù)據(jù)存儲(chǔ)、計(jì)算和分析,而存儲(chǔ)是此架構(gòu)中的一部分。”
大數(shù)據(jù)的存儲(chǔ)類型與傳統(tǒng)的存儲(chǔ)類型有一定區(qū)別:在大數(shù)據(jù)存儲(chǔ)中,更多的應(yīng)用是一次寫、多次讀,讀得更多是大數(shù)據(jù)存儲(chǔ)的一個(gè)特點(diǎn),而在傳統(tǒng)的數(shù)據(jù)存儲(chǔ)中,讀寫是隨機(jī)的,由于每個(gè)應(yīng)用不同,其讀寫的比例也是隨機(jī)的;大數(shù)據(jù)存儲(chǔ)需要具有橫向的可擴(kuò)展性,并可支持多種接口、多種數(shù)據(jù)訪問(wèn)協(xié)議,便于不同數(shù)據(jù)進(jìn)入這個(gè)大數(shù)據(jù)平臺(tái)。
談到中國(guó)用戶在大數(shù)據(jù)存儲(chǔ)應(yīng)用中最迫切的需求是什么,陳戈認(rèn)為,中國(guó)用戶最迫切的需求是如何逐步實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用,即用戶從現(xiàn)有的模式如何過(guò)渡到大數(shù)據(jù),如何更好地利用大數(shù)據(jù)進(jìn)行經(jīng)營(yíng)分析。
大數(shù)據(jù)的經(jīng)典定義可以歸納為四個(gè)“V”,但企業(yè)不可能一步到位實(shí)現(xiàn)四個(gè)“V”,這需要一個(gè)循序漸進(jìn)的過(guò)程。海量的、多種類型的數(shù)據(jù)是一次性全部載入到大數(shù)據(jù)中,還是通過(guò)現(xiàn)有的平臺(tái)進(jìn)行數(shù)據(jù)初選,再導(dǎo)入到大數(shù)據(jù)平臺(tái)中,是兩種不同的實(shí)現(xiàn)途徑。“先通過(guò)現(xiàn)有平臺(tái)進(jìn)行數(shù)據(jù)初選,再導(dǎo)入到大數(shù)據(jù)平臺(tái),這種方式更適合于客戶逐漸實(shí)現(xiàn)大數(shù)據(jù),可以縮短用戶實(shí)現(xiàn)大數(shù)據(jù)應(yīng)用的時(shí)間。”陳戈表示,“大數(shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù)。用戶可以使用基于對(duì)象數(shù)據(jù)存儲(chǔ)的HCP,利用其獨(dú)特的元數(shù)據(jù)采集和智能工具,對(duì)非結(jié)構(gòu)化文件數(shù)據(jù)進(jìn)行管理,實(shí)現(xiàn)智能的自動(dòng)化,這有助于對(duì)數(shù)據(jù)進(jìn)行深度分析,幫助客戶從單一系統(tǒng)中存儲(chǔ)、共享、同步、保護(hù)、保存、分析和檢索文件數(shù)據(jù),減少垃圾數(shù)據(jù),進(jìn)而為大數(shù)據(jù)分析建立一個(gè)良好的基礎(chǔ)。”
談到用戶在大數(shù)據(jù)應(yīng)用中遇到的主要障礙,陳戈表示,一方面,應(yīng)用軟件本身的智能程度是否能滿足行業(yè)應(yīng)用需求,應(yīng)用軟件是否已經(jīng)成型,大數(shù)據(jù)人才是否具備等,是讓大數(shù)據(jù)應(yīng)用落地的關(guān)鍵;另一方面,如何抽取數(shù)據(jù),放在大數(shù)據(jù)平臺(tái)中進(jìn)行相應(yīng)的計(jì)算是另一個(gè)關(guān)鍵問(wèn)題。
HDS可為所有數(shù)據(jù)提供單一、可擴(kuò)展的虛擬化集成平臺(tái)。HDS推出了“三步”云戰(zhàn)略,從基礎(chǔ)架構(gòu)、內(nèi)容和信息三個(gè)層面幫助客戶解決目前所遇到的問(wèn)題。具體來(lái)看,通過(guò)“基礎(chǔ)架構(gòu)云”,HDS可以幫助客戶進(jìn)行虛擬化和集成管理,實(shí)現(xiàn)數(shù)據(jù)中心的整合;在第二層的“內(nèi)容云”當(dāng)中,HDS可以按需提供內(nèi)容,更可以不受應(yīng)用限制地進(jìn)行數(shù)據(jù)搜索和集成;在第三層的“信息云”中,針對(duì)所有數(shù)據(jù)類型,HDS在其存儲(chǔ)平臺(tái)中融入了分析功能,使客戶可以從數(shù)據(jù)信息中獲取洞察力。
HDS提供的UCP for SAP HANA集成了基于大量數(shù)據(jù)集的創(chuàng)新和內(nèi)存分析技術(shù),并提供實(shí)時(shí)的洞察力,從而使當(dāng)前的信息驅(qū)動(dòng)型企業(yè)可以加快其商業(yè)決策的速度。陳戈介紹說(shuō),UCP for SAP HANA解決方案結(jié)合了HDS刀片服務(wù)器技術(shù)、企業(yè)級(jí)存儲(chǔ)系統(tǒng)和業(yè)內(nèi)領(lǐng)先的網(wǎng)絡(luò)組件,在這樣一個(gè)集成的、高性能的硬件平臺(tái)上可以快速交付SAP下一代內(nèi)存計(jì)算技術(shù)。全球已有超過(guò)200家客戶在使用HDS和SAP的大數(shù)據(jù)解決方案。
方案點(diǎn)評(píng)
其實(shí),HDS的“三步”云戰(zhàn)略也可以看成是其大數(shù)據(jù)戰(zhàn)略。HDS借助以UCP為核心的大數(shù)據(jù)平臺(tái),可以幫助企業(yè)用戶構(gòu)建從基礎(chǔ)架構(gòu)到內(nèi)容歸檔和搜索,直至信息提取和分析的全面、高效的大數(shù)據(jù)解決方案。HDS的“信息云”直接與大數(shù)據(jù)相關(guān)。UCP是一個(gè)集成了計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)的一體化平臺(tái),它既可以提供像一體機(jī)一樣的整合性、簡(jiǎn)單性,又可以提供靈活的選擇,連接第三方的設(shè)備組件。HDS還通過(guò)與包括SAP在內(nèi)的眾多大數(shù)據(jù)分析類的合作伙伴合作,針對(duì)行業(yè)定制優(yōu)質(zhì)的大數(shù)據(jù)解決方案。
HP StoreAll :快速部署 極速搜索
中國(guó)惠普有限公司企業(yè)集團(tuán)存儲(chǔ)產(chǎn)品部存儲(chǔ)架構(gòu)師張楠向記者表示,大數(shù)據(jù)存儲(chǔ)是一套解決方案,應(yīng)該能夠?qū)Υ髷?shù)據(jù)的Volume、Velocity、Variety和Value四個(gè)方面提供全面的支持。
第一,大數(shù)據(jù)存儲(chǔ)要支持海量級(jí)的數(shù)據(jù)存儲(chǔ),比如具有PB級(jí)的存儲(chǔ)能力。第二,大數(shù)據(jù)存儲(chǔ)要支持更高的存儲(chǔ)速度,支持10Gb甚至更高的網(wǎng)絡(luò)連接。第三,大數(shù)據(jù)存儲(chǔ)要支持?jǐn)?shù)據(jù)的多樣性,如圖片、文本、視頻、音頻等。第四,大數(shù)據(jù)最重要的是價(jià)值的體現(xiàn),而為了實(shí)現(xiàn)這一點(diǎn),存儲(chǔ)本身應(yīng)該具備快速、智能的數(shù)據(jù)檢索能力。“在存儲(chǔ)的最底層提供最直接、快捷的數(shù)據(jù)檢索。這一過(guò)程簡(jiǎn)單說(shuō)就是,將上層的數(shù)據(jù)挖掘工作下移,充分利用存儲(chǔ)強(qiáng)大的處理能力和數(shù)據(jù)識(shí)別能力。”張楠舉例說(shuō),“比如,在秒級(jí)的單位內(nèi)對(duì)數(shù)據(jù)進(jìn)行極速的搜索, 從幾千萬(wàn)甚至上億個(gè)文件中找到目標(biāo)數(shù)據(jù)。”
另外,模糊查詢能力也是大數(shù)據(jù)存儲(chǔ)不可缺少的功能。智能的模糊查詢將為大數(shù)據(jù)平臺(tái)提供更加便捷的存儲(chǔ)服務(wù)能力,使得存儲(chǔ)更像一臺(tái)智能的高速計(jì)算設(shè)備。
目前,很多中國(guó)用戶在存儲(chǔ)廠商的引導(dǎo)下,片面追求存儲(chǔ)的大容量和高性能,而忽略了大數(shù)據(jù)存儲(chǔ)本身應(yīng)該提供的其他額外屬性。中國(guó)用戶在實(shí)施大數(shù)據(jù)的過(guò)程中經(jīng)常遇到的障礙有以下兩方面:第一,無(wú)法將存儲(chǔ)與大數(shù)據(jù)平臺(tái)進(jìn)行對(duì)接;第二,無(wú)法充分利用大數(shù)據(jù)存儲(chǔ)的價(jià)值,也很難將其運(yùn)用到實(shí)際的業(yè)務(wù)中。張楠表示,究其原因,主要在于有些大數(shù)據(jù)存儲(chǔ)產(chǎn)品沒(méi)有開(kāi)放的接口協(xié)議,或沒(méi)有針對(duì)用戶的大數(shù)據(jù)場(chǎng)景進(jìn)行特別優(yōu)化,也沒(méi)有用戶容易接受的易用的管理方式等。
惠普在大數(shù)據(jù)方面可以提供軟硬結(jié)合的解決方案。惠普在收購(gòu)Autonomy公司之后,將其軟件與惠普的硬件平臺(tái)進(jìn)行了整合, 形成了一套完整的大數(shù)據(jù)解決方案。張楠介紹說(shuō),在存儲(chǔ)方面,惠普擁有像StoreAll這樣的大數(shù)據(jù)存儲(chǔ)平臺(tái)。借助HP StoreAll硬件平臺(tái),用戶除了可以實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和高速數(shù)據(jù)訪問(wèn)以外,還能實(shí)現(xiàn)高級(jí)的數(shù)據(jù)檢索功能,對(duì)特殊文件進(jìn)行快速定位。同時(shí),結(jié)合HP Autonomy軟件的特性,惠普還引入了模糊查詢、智能語(yǔ)義庫(kù)等概念,可以幫助企業(yè)用戶通過(guò)存儲(chǔ)底層為上層業(yè)務(wù)帶來(lái)所需的大數(shù)據(jù)業(yè)務(wù)價(jià)值。
如今,閃存不僅在大數(shù)據(jù)領(lǐng)域,而且在Tier 1存儲(chǔ)市場(chǎng)同樣占據(jù)著十分重要的地位。對(duì)于大數(shù)據(jù)平臺(tái)來(lái)說(shuō),閃存可用來(lái)提升存儲(chǔ)的存取速度,降低I/O的響應(yīng)時(shí)間等。針對(duì)那些I/O壓力十分明確的大數(shù)據(jù)平臺(tái), SSD可以發(fā)揮其效果, 提升存儲(chǔ)的整體性能。但是,SSD并不是萬(wàn)能的。因?yàn)榇蟛糠值臄?shù)據(jù)都是非結(jié)構(gòu)化的,而非結(jié)構(gòu)化數(shù)據(jù)對(duì)I/O的響應(yīng)要求遠(yuǎn)遠(yuǎn)沒(méi)有對(duì)帶寬的需求大,所以,讓用戶花數(shù)倍的價(jià)格購(gòu)買SSD存儲(chǔ)在目前來(lái)看還是比較困難的。從目前情況看,引入閃存的大數(shù)據(jù)解決方案還不是很普遍。
方案點(diǎn)評(píng)
惠普在大數(shù)據(jù)方面收購(gòu)了兩個(gè)軟件公司Vertica與Autonomy,然后將它們的軟件與原有的硬件平臺(tái)進(jìn)行整合,針對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)都可以提供針對(duì)性的解決方案。惠普在將大數(shù)據(jù)軟件與存儲(chǔ)硬件結(jié)合上也進(jìn)行了嘗試,其中一個(gè)成功的例子就是HP StoreAll大數(shù)據(jù)存儲(chǔ)平臺(tái)。HP StoreAll具有以下特點(diǎn):橫向擴(kuò)展,最大可以擴(kuò)展到16TB;集成HP Autonomy搜索引擎,可以快速搜索,實(shí)現(xiàn)實(shí)時(shí)大數(shù)據(jù)的價(jià)值;內(nèi)置對(duì)OpenStack的支持,可快速部署;支持文件和對(duì)象類型的數(shù)據(jù)存儲(chǔ)。
NetApp:統(tǒng)一架構(gòu) 無(wú)限擴(kuò)展
如今,企業(yè)若想獲得成功,就必須想方設(shè)法應(yīng)對(duì)具有前所未有的復(fù)雜性、高性能的海量數(shù)據(jù),并盡可能地管理這些數(shù)據(jù),從中發(fā)掘更大的商業(yè)價(jià)值。
對(duì)于國(guó)內(nèi)用戶來(lái)說(shuō),無(wú)論企業(yè)的規(guī)模和數(shù)據(jù)量大小如何,運(yùn)用大數(shù)據(jù)的關(guān)鍵在于,企業(yè)是否把大數(shù)據(jù)作為一個(gè)真正的工具,去體現(xiàn)企業(yè)的差異化,從而提升競(jìng)爭(zhēng)力。隨著越來(lái)越智慧的企業(yè)信息化的發(fā)展,IT不再是束縛企業(yè)發(fā)展的瓶頸,而是真正地融入了企業(yè)自身的業(yè)務(wù)中。越來(lái)越多的公司將大數(shù)據(jù)成功地運(yùn)用于企業(yè)的商業(yè)模式。例如,在歐美,很多企業(yè)已經(jīng)著手將大量資源投放在大數(shù)據(jù)領(lǐng)域。反觀國(guó)內(nèi),在金融領(lǐng)域,有為數(shù)不少的企業(yè)通過(guò)大數(shù)據(jù)的分析工具來(lái)分析金融的走勢(shì),實(shí)現(xiàn)風(fēng)險(xiǎn)管理,進(jìn)行信用卡的追蹤等。此外,像零售、制造、電信等行業(yè)也已在嘗試?yán)么髷?shù)據(jù)分析工具為企業(yè)營(yíng)銷和決策提供支撐。
無(wú)論企業(yè)現(xiàn)在是否正在使用大數(shù)據(jù)工具,企業(yè)都應(yīng)全面地考慮自身未來(lái)發(fā)展的需求,選擇一個(gè)廠家的平臺(tái)與之共同發(fā)展,這可以有效避免因數(shù)據(jù)和應(yīng)用遷移帶來(lái)的麻煩。
在大數(shù)據(jù)方面,NetApp能夠幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)管理,應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)的極限,將以數(shù)據(jù)為導(dǎo)向的洞察轉(zhuǎn)化為有效行動(dòng)。若想將數(shù)據(jù)轉(zhuǎn)化為商機(jī),僅僅提升管理能力是不夠的,需要徹底轉(zhuǎn)變數(shù)據(jù)和業(yè)務(wù)之間的聯(lián)系模式。NetApp可以幫助企業(yè)用戶持續(xù)管理數(shù)據(jù),迅速把握意料之外的新商機(jī),永久保存所有數(shù)據(jù),并在靈活、開(kāi)放的存儲(chǔ)平臺(tái)之上打造屬于企業(yè)自己的大數(shù)據(jù)解決方案。
NetApp提供了可高效處理、分析、管理和訪問(wèn)大規(guī)模數(shù)據(jù)的大數(shù)據(jù)解決方案。NetApp的解決方案組合可劃分為分析、帶寬和內(nèi)容三個(gè)主要用例,這被稱之為大數(shù)據(jù)的“ABC”基本要素。
具體來(lái)看,分析(Analysis)是指針對(duì)極大數(shù)據(jù)集的高效分析。NetApp分析解決方案就是幫助用戶深入了解和利用數(shù)字世界,將數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的信息,以及提供關(guān)于業(yè)務(wù)的更深入見(jiàn)解,從而幫助企業(yè)做出更好的決策。
帶寬(Bandwidth)是指適用于數(shù)據(jù)密集型工作負(fù)載的性能。此類解決方案著重于為速度非常快的工作負(fù)載提供更高的性能。高帶寬應(yīng)用包括高性能計(jì)算(能以極快的速度執(zhí)行復(fù)雜的分析)、用于監(jiān)控和任務(wù)規(guī)劃的高性能視頻流、媒體和娛樂(lè)領(lǐng)域中的視頻剪輯和播放。
內(nèi)容(Content)是指無(wú)限的安全數(shù)據(jù)存儲(chǔ)。此類解決方案著重于滿足可擴(kuò)展的安全數(shù)據(jù)存儲(chǔ)需求。內(nèi)容解決方案必須支持存儲(chǔ)的無(wú)限擴(kuò)展能力,以便企業(yè)可以根據(jù)需要存儲(chǔ)任意多的數(shù)據(jù),并能在需要時(shí)找到所需的數(shù)據(jù)。
NetApp致力于通過(guò)一系列解決方案來(lái)提供高性能的運(yùn)算和大數(shù)據(jù)的應(yīng)用。2013年11月,NetApp再次更新了E系列家族產(chǎn)品,推出E2700和E5500。該系列產(chǎn)品采用可輕松擴(kuò)展的設(shè)計(jì),適用于要求99.999%的可靠性且穩(wěn)定、高性能的工作負(fù)載。
用戶在采購(gòu)大數(shù)據(jù)存儲(chǔ)產(chǎn)品時(shí),需要注意以下五個(gè)方面的問(wèn)題:大數(shù)據(jù)存儲(chǔ)必須具有向上擴(kuò)展與向外擴(kuò)展的能力;架構(gòu)必須是針對(duì)工作負(fù)載進(jìn)行優(yōu)化的,具有實(shí)時(shí)處理能力;具有整合的數(shù)據(jù)保護(hù)功能;保證7×24小時(shí)運(yùn)行不中斷,可在線進(jìn)行容量擴(kuò)展,實(shí)施數(shù)據(jù)遷移等;可以實(shí)現(xiàn)服務(wù)的自動(dòng)化。
方案點(diǎn)評(píng)
NetApp的技術(shù)優(yōu)勢(shì)集中體現(xiàn)在其統(tǒng)一存儲(chǔ)平臺(tái)上,從入門級(jí)產(chǎn)品到企業(yè)級(jí)產(chǎn)品,全部基于同一個(gè)體系架構(gòu)和操作系統(tǒng),不僅部署和使用方便,而且升級(jí)和擴(kuò)展非常簡(jiǎn)單。當(dāng)初,NetApp收購(gòu)LSI Engenio,其中一個(gè)重要的原因就是為了大數(shù)據(jù)。2013年,NetApp不斷更新E系列產(chǎn)品線,推出E2700和E5500等。E5500可以支持高IOPS混合工作負(fù)載和數(shù)據(jù)庫(kù)、高性能文件系統(tǒng)和帶寬密集型流等應(yīng)用,可確保數(shù)據(jù)的高可用性、完整性和安全性。
曙光XData:高度集成 貼近行業(yè)
關(guān)于大數(shù)據(jù)存儲(chǔ),目前業(yè)界沒(méi)有一個(gè)通用的定義。曙光信息產(chǎn)業(yè)股份有限公司總裁助理兼存儲(chǔ)產(chǎn)品線產(chǎn)品總監(jiān)惠潤(rùn)海從曙光大數(shù)據(jù)平臺(tái)和解決方案角度,概括出大數(shù)據(jù)存儲(chǔ)的主要特征。
首先,大數(shù)據(jù)存儲(chǔ)必須支持全類型數(shù)據(jù), 包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)支持。
其次,存儲(chǔ)性能上,一方面,大數(shù)據(jù)存儲(chǔ)要支持海量數(shù)據(jù),并且要在保證數(shù)據(jù)可靠性的基礎(chǔ)之上,實(shí)現(xiàn)容量與性能的線性擴(kuò)展;另一方面,為了實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值,批處理和實(shí)時(shí)處理兩種措施都需要高性能的數(shù)據(jù)訪問(wèn)獲取能力。
最后,在系統(tǒng)達(dá)到一定規(guī)模之后,系統(tǒng)的易用性和可管理性也是不可或缺的。
從應(yīng)用角度來(lái)說(shuō),目前中國(guó)用戶在大數(shù)據(jù)存儲(chǔ)應(yīng)用中最迫切的需求,是如何真正實(shí)現(xiàn)用戶數(shù)據(jù)的價(jià)值,如何驅(qū)動(dòng)業(yè)務(wù)發(fā)展,實(shí)現(xiàn)決策和運(yùn)營(yíng)。“從系統(tǒng)構(gòu)建層面說(shuō),要實(shí)現(xiàn)數(shù)據(jù)高性價(jià)比的存儲(chǔ)和管理,同時(shí)滿足數(shù)據(jù)服務(wù)的相關(guān)需求。”惠潤(rùn)海表示。
針對(duì)用戶對(duì)大數(shù)據(jù)存儲(chǔ)的需求, 曙光推出了像大數(shù)據(jù)一體機(jī)這樣的全類型數(shù)據(jù)分析型產(chǎn)品,同時(shí)還基于該產(chǎn)品構(gòu)建了基于行業(yè)的解決方案,以幫助用戶實(shí)現(xiàn)大數(shù)據(jù)落地。
“除此之外, 我們還提供了大數(shù)據(jù)統(tǒng)一數(shù)據(jù)中心解決方案, 涵蓋了像主攻事物處理的DS900、DS800,以及針對(duì)文件存儲(chǔ)的Parastor等存儲(chǔ)產(chǎn)品。我們基于這些存儲(chǔ)產(chǎn)品構(gòu)建了大數(shù)據(jù)運(yùn)營(yíng)管理平臺(tái)。”惠潤(rùn)海介紹說(shuō),“曙光的優(yōu)勢(shì)不僅在于可以提供全面的產(chǎn)品支撐,更重要的是能夠提供數(shù)據(jù)生命周期過(guò)程服務(wù)支持。目前,我們提供的免費(fèi)維保期限為5年。”
曙光開(kāi)發(fā)了針對(duì)不同行業(yè)和應(yīng)用場(chǎng)景的大數(shù)據(jù)存儲(chǔ)解決方案。以金融行業(yè)為例,目前國(guó)內(nèi)四大行的應(yīng)用系統(tǒng)每年產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到PB級(jí),結(jié)構(gòu)化數(shù)據(jù)也以百TB計(jì)。面對(duì)如此大量的數(shù)據(jù),如何存儲(chǔ)、管理、利用和盤活它們呢?惠潤(rùn)海認(rèn)為,只有通過(guò)商業(yè)智能和高級(jí)分析應(yīng)用解決方案才能將數(shù)據(jù)的價(jià)值最大程度地發(fā)揮出來(lái)。
針對(duì)金融行業(yè)用戶的需求,曙光開(kāi)發(fā)的XData大數(shù)據(jù)解決方案利用優(yōu)化的大數(shù)據(jù)處理技術(shù),對(duì)文件管理、歷史數(shù)據(jù)查詢和數(shù)據(jù)分析類應(yīng)用等進(jìn)行深入研究,為數(shù)據(jù)爆炸式增長(zhǎng)帶來(lái)的海量數(shù)據(jù)存儲(chǔ)及分析應(yīng)用提供高可靠的解決方案。
曙光金融行業(yè)XData大數(shù)據(jù)解決方案采用曙光自主研發(fā)的SN-MPP并行數(shù)據(jù)庫(kù),同時(shí)結(jié)合大數(shù)據(jù)處理事實(shí)標(biāo)準(zhǔn)Hadoop,并充分考慮了多方面的數(shù)據(jù)收集,加入ETL工具和連接驅(qū)動(dòng)器,提供了類SQL的接口,還和現(xiàn)有金融業(yè)務(wù)系統(tǒng)進(jìn)行對(duì)接。
針對(duì)金融行業(yè)歷史數(shù)據(jù),XData大數(shù)據(jù)解決方案在方案設(shè)計(jì)上主要考慮了數(shù)據(jù)的安全性、歷史數(shù)據(jù)高效導(dǎo)入、快速訪問(wèn)與分析報(bào)表。曙光金融行業(yè)大數(shù)據(jù)解決方案立足于基礎(chǔ)平臺(tái)建設(shè),同時(shí)切實(shí)貼合金融行業(yè)用戶需求,提供了優(yōu)質(zhì)的軟硬一體化解決方案,為用戶一攬子解決了部署、業(yè)務(wù)移植開(kāi)發(fā)等技術(shù)難題,幫助用戶跨過(guò)應(yīng)用門檻。