本站小編為你精心準備了大數據技術在電子商務中的研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
隨著云計算、物聯網、社交網絡、移動互聯網等新興技術的層出不窮和不斷發展,人類全面進入了大數據時代。各種數據正在迅速膨脹、變大,逐步呈現出爆炸性增長的趨勢,數據的影響已經滲入到了產業、科研、教育、家庭和社會的各個層面。隨著時間的推移,人們將越來越多的意識到對數據的需求和掌握已不再局限于以往的數據挖掘和數據分析,而是為人們獲得更為深刻、全面的洞察能力提供前所未有的支持。《紐約時報》2012年2月的一篇專欄中稱,“大數據”時代已經降臨,在商業、經濟及其他領域中,決策將日益基于數據和分析而做出,而并非基于經驗和直覺[1]。2012年3月,美國總統奧巴馬公布了美國《大數據研究和發展計劃》,標志著大數據已經成為美國的國家戰略,上升為國家意志。那么什么是大數據呢?大數據指的是在“多樣的或者大量的數據中快速獲取信息的能力”。IT業界通常將大數據的特征概括為四個“V”:數據量(volume)巨大,數據類型(variety)多,數據價值(Value)大,發掘出價值的速度(Velocity)快[2]。大數據和傳統所說的數據庫有所不同。誕生在二十世紀七十年代的傳統數據庫是小型的、單一的、孤立的,基于小范圍的抽樣樣本統計。而大數據則要求窮盡一切相關樣本,搜集盡可能全面的數據,大數據的數據集擁有的不是支離破碎的割裂數據,不是數據片段,而是完整的數據。數據的海量與數據的完整性使大數據有著傳統的數據庫無法比擬的信息優勢。
1大數據的重要性
信息科技經過多年的發展,數據已經滲透到國家治理、國民經濟、企業發展的方方面面。這些數據中隱藏著有價值的模式和信息,需要相當的時間和成本才能提取這些信息。一些新興的互聯網公司,利用新技術大規模地收集數據,分析和預判客戶行為,然后在不同的行業縱橫捭闔。而缺少數據資產、缺少強大數據分析能力的公司,則無疑將處于被顛覆的邊緣。因此大數據技術雖然發源于信息科技,但其影響力已經遠遠超出信息行業,正在“吞噬”和重構很多傳統行業,廣泛運用數據分析手段管理和優化運營的公司其實質都是一個數據公司。可以毫無疑問地說,大數據事關國計民生、產業興衰、公司存亡。麥當勞、肯德基以及蘋果公司等旗艦專賣店的位置都是建立在數據分析基礎之上的精準選址。而在零售業中,數據分析的技術與手段更是得到廣泛的應用,傳統企業如沃爾瑪通過數據挖掘重塑并優化供應鏈,新崛起的電商如卓越亞馬遜、淘寶等則通過對海量數據的掌握和分析,為用戶提供更加專業化和個性化的服務。著名的信用卡國際組織萬事達通過分析來自210個國家的15億信用卡用戶的650億條交易記錄,分析得出商業發展和客戶消費趨勢,取得了極大的營銷價值[3]。
2大數據技術介紹
2.1Hadoop簡介雖然數據量巨大是大數據時代的特點,但這并不意味著數據的含金量高和對數據的理解要求低。事實上,龐大的數據中往往摻雜著太多的無效數據,簡單粗放式的數據統計和分析往往不能得到真正有價值的內容,所以對大數據技術提出了更高層次的挑戰,使用傳統的數據工具是遠遠無法滿足大數據需要的,由此產生了大數據技術。Hadoop是當前最為流行的大數據技術,從誕生之日起,Hadoop便與大數據有著千絲萬縷的聯系。Hadoop是一個用java語言實現的軟件框架,在由大量計算機組成的集群中運行海量數據的分布式計算,它可以讓應用程序支持上千個節點和PB級別的數據。Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成。Hadoop的設計原理來自于谷歌的GFS和MapReduce模型,可以看作是后者的開源實現。由于其可以運行在對硬件配置要求低、擴展性好、容錯能力強及具有強大的并行處理能力等特點的設備上,在多個行業得到廣泛的應用,成為當下大數據領域的熱門技術。谷歌、雅虎、亞馬遜和Facebook都開發了以Hadoop為基礎的大數據應用程序。Hadoop是由多個技術模塊組成的,其體系架構如圖1所示。各模塊的主要功能如下。⑴Pig是一個基于Hadoop的大規模數據分析平臺,Pig為復雜的海量數據并行計算提供了一個簡易的操作和編程接口。⑵Chukwa是基于Hadoop的集群監控系統,由yahoo貢獻。⑶Hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。⑷ZooKeeper是高效的、可擴展的協調系統,存儲和協調關鍵共享狀態。⑸HBase是一個開源的,基于列存儲模型的分布式數據庫。⑹HDFS是一個分布式文件系統。有著高容錯性的特點,并且設計用來部署在低廉的硬件上,適合那些有著超大數據集的應用程序。⑺MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。其中HDFS和MapReduce是Hadoop體系架構中兩大技術核心。
2.2Hadoop技術核心介紹
2.2.1HDFS文件系統HDFS是一個高度容錯性的分布式文件系統,能提供高吞吐量的數據訪問,非常適合于大規模數據集上的應用。圖2是HDFS文件系統的圖示。⑴NameNode:可以看作是分布式文件系統中的管理者,存儲文件系統的metadata,主要負責管理文件系統的命名空間,集群配置信息,存儲塊的復制。⑵DataNode:是文件存儲的基本單元。它將文件塊存儲在本地文件系統中,保存了文件塊的metadata,同時周期性的發送所有存在的文件塊的報告給NameNode。⑶Client:就是需要獲取分布式文件系統文件的應用程序。
2.2.2MapReduce編程模型MapReduce是一種編程模型,用于大規模數據集的并行運算[6]。Map(映射)和Reduce(化簡),采用分而治之思想,先把任務分發到集群多個節點上,并行計算,然后再把計算結果合并,從而得到最終計算結果。多節點計算,所涉及的任務調度、負載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關心這些內容。圖3是MapReduce的編程模型。⑴根據輸入數據的大小和參數的設置把數據分成splits,每個split對應一個map線程。⑵Split中的數據作為Map的輸入,Map的輸出一定在Map端。⑶Map的輸出到Reduce的輸入的過程(shuffle過程)。①第一階段:在map端完成內存→排序→寫入磁盤→復制。②第二階段:在reduce端完成映射到reduce端分區→合并→排序。⑷Reduce的輸入到Reduce的輸出:最后排好序的key/value作為Reduce的輸入,輸出不一定是在reduce端。
大數據技術Hadoop在電子商務領域中的應用非常廣泛,可以說正在滲透到電子商務中的方方面面。國內外的電子商務巨頭如淘寶、京東、亞馬遜、沃爾瑪等,都在不斷利用大數據技術Hadoop,在電子商務領域縱橫捭闔。
3.1商務領域數據處理體系⑴輸入實時用戶數據。數據可以來源于實時的服務器日志、用戶訪問日志、網絡數據包等。⑵基于MapReduce的數據處理程序對實時數據進行處理和提取,規定統一的數據格式。⑶通過HDFS文件系統將數據存儲起來。⑷最終用戶通過可視化界面,進行數據查詢、檢索。
3.2典型應用以下介紹大數據技術Hadoop在電子商務中的典型應用。⑴大數據技術Hadoop在電子商務中的一個典型應用是實時掌握用戶在使用電子商務網站時的用戶體驗情況。電子商務的核心在于網上購物和網絡支付,這些都離不開一個有效的電子商務購物網站的支持。購物網站的運作核心通常是由三個要素來匯聚,包括消費者信任、豐富的內容以及安全性[4]。對于有些電子商務網站(比如淘寶、亞馬遜、京東等),其每秒用戶訪問量巨大,從而產生的數據是海量的。這些海量數據,包含了豐富的用戶行為,但通過傳統的工具,很難對其中包含的信息進行快速分析。通過大數據技術Hadoop,能夠實時有效地分析用戶的訪問行為,實現對用戶行為和體驗的實時管理和監控,從而從展現內容、用戶體驗、信息安全等多個角度為用戶提供高質量的電子商務服務。通過大數據技術Hadoop能夠獲得的信息是非常多的,例如通過電子商務網站產生的服務器日志信息、用戶訪問網站的信息可以獲得:①服務器上最近一段時間發生的錯誤數量;②用戶找不到商品的資訊;③用戶在各個商品頁面上的平均停留時間;④客戶的付款方式;⑤客戶來自哪些不同的地區;⑥各個地區的平均消費水平;⑦客戶登入網站的次數和頻率的統計;⑧客戶將商品放入購物車的統計;⑨客戶先選擇了某些商品但最終沒有結賬購買的頻率。上述場景僅僅是大數據技術Hadoop能夠分析的很小的一部分。通過大數據技術Hadoop分析,我們能夠實時了解到電子商務網站的運營情況、運行情況、用戶對商品的喜好程度,從而能夠及時進行非常有針對性的調整,提高用戶的使用體驗。⑵大數據技術Hadoop在電子商務中的另一個典型應用就是廣告推薦系統。傳統的網頁廣告,不管用戶是否對廣告所代表的產品和內容感興趣,只是單純地將廣告信息展示給用戶。因此傳統網頁廣告必須進行大規模的投放,否則在受眾人群不廣的情況下無法產生效益。而利用大數據技術Hadoop開發的廣告推薦系統則有明顯的針對性,它的中心思想是對用戶行為進行分析,通過分析其瀏覽過的頁面、使用過的搜索詞,以及其他的社交、分享、收藏、購買等行為,對用戶進行分類和建模,把握用戶的特點、興趣及訪問意圖等,然后有針對性的投放廣告、向用戶推薦關聯商品,真正做到了有的放矢。例如,如果我們曾經在百度中搜索了臺灣,當我們瀏覽一些網站時,會驚奇地發現這些網站的廣告頁上會出現各類與臺灣有關的推薦,包括住宿、機票、門票、土特產等。這是因為當我們在百度、谷歌等搜索引擎中搜索關鍵字時,會在我們的瀏覽器中留下我們曾經搜索或訪問過的痕跡信息[5]。當我們再去訪問那些含有廣告推薦系統的網站時,首先網站會從我們的瀏覽器中獲取我們曾經搜索過的關鍵字信息,然后通過廣告推薦系統,將最符合我們搜索關鍵字的廣告信息在頁面中展示。
4結束語
大數據技術目前在國內還處于初級階段,但是商業價值已逐步顯現,特別是在電子商務這一互聯網前沿陣地,已經可以看到很多大數據技術應用場景的存在。如今在電子商務網站上看到的很多新的營銷手段,常常在后臺都離不開大數據技術的有力支持。可以設想,隨著社會的不斷發展,大數據技術的不斷成熟,大數據技術的應用及產業鏈將日益成熟,大數據終將成為人們生活中必不可少的一部分。
作者:齊麗娜 單位:上海商業會計學校計算機教學部