在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 大數據時代統計學重構分析范文

大數據時代統計學重構分析范文

本站小編為你精心準備了大數據時代統計學重構分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

大數據時代統計學重構分析

摘要:基于大數據特征,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果評價標準的重建等成為統計學理論面臨解決的首要問題.為適應大數據時代的發展,分析了大數據時代傳統統計學所面臨的機遇與挑戰,對傳統統計學的繼承、發展和完善,重構大數據時代新的統計理論有其重要意義.

關鍵詞:大數據;統計學;數據分析;抽樣理論;理論

重構隨著信息科學技術的高速度發展,當代獲取和儲存數據信息的能力不斷增強而成本不斷下降,這為大數據的應用提供了必要的技術環境和可能.應用大數據技術的優勢愈來愈明顯,它的應用能夠幫助人類獲取真正有價值的數據信息.近年來,專家學者有關大數據技術問題進行了大量的研究工作[1],很多領域也都受到了大數據分析的影響.這個時代將大數據稱為未來的石油,它必將對這個時代和未來的社會經濟以及科學技術的發展產生深遠的意義和影響.目前對于大數據概念,主要是從數據來源和數據的處理工具與處理難度方面考慮,但國內外專家學者各有各的觀點,并沒有給出一致的精確定義.麥肯錫全球數據分析研究所指出大數據是數據集的大小超越了典型數據庫工具集合、存儲、管理和分析能力的數據集,大數據被Gartner定義為極端信息管理和處理一個或多個維度的傳統信息技術問題[23].目前得到專家們認可的一種觀點,即:“超大規?!笔荊B級數據,“海量”是TB級數據,而“大數據”是PB及其以上級別數據[2].

一些研究學者把大數據特征進行概括,稱其具有數據規模巨大、類型多樣、可利用價值密度低和處理速度快等特征,同時特別強調大數據區別于其他概念的最重要特征是快速動態變化的數據和形成流式數據.大數據技術發展所面臨的問題是數據存儲、數據處理和數據分析、數據顯示和數據安全等.大數據的數據量大、多樣性、復雜性及實時性等特點,使得數據存儲環境有了很大變化[45],而大部分傳統的統計方法只適合分析單個計算機存儲的數據,這些問題無疑增加了數據處理和整合的困難.數據分析是大數據處理的核心過程,同時它也給傳統統計學帶來了巨大的挑戰[6].產生大數據的數據源通常情況下具有高速度性和實時性,所以要求數據處理和分析系統也要有快速度和實時性特點,而傳統統計分析方法通常不具備快速和實時等特點.基于大數據的特點,傳統的數據統計理論已經不能適應大數據分析與研究的范疇,傳統統計學面臨著巨大的機遇與挑戰,然而為了適應大數據這一新的研究對象,傳統統計學必須進行改進,以繼續和更好的服務于人類.目前國內外將大數據和統計學相結合的研究文獻并不多.本文對大數據時代這一特定環境背景,統計學的抽樣理論和總體理論的存在價值、統計方法的重構及統計結果的評價標準的重建等問題進行分析與研究.

1傳統意義下的統計學

廣泛的統計學包括三個類型的統計方法:①處理大量隨機現象的統計方法,比如概率論與數理統計方法.②處理非隨機非概率的描述統計方法,如指數編制、社會調查等方法.③處理和特定學科相關聯的特殊方法,如經濟統計方法、環境科學統計方法等[7].受收集、處理數據的工具和能力的限制,人們幾乎不可能收集到全部的數據信息,因此傳統的統計學理論和方法基本上都是在樣本上進行的.或者即使能夠得到所有數據,但從實際角度出發,因所需成本過大,也會放棄搜集全部數據.然而,選擇最佳的抽樣方法和統計分析方法,也只能最大程度還原總體一個特定方面或某些方面的特征.事實上我們所察覺到的數據特征也只是總體大量特征中的一小部分,更多的其他特征尚待發掘.總之,傳統統計學是建立在抽樣理論基礎上,以點帶面的統計分析方法,強調因果關系的統計分析結果,推斷所測對象的總體本質的一門科學,是通過搜集、整理和分析研究數據從而探索數據內部存在規律的一門科學.

2統計學是大數據分析的核心

數的產生基于三個要素,分別是數、量和計量單位.在用數來表示事物的特征并采用了科學的計量單位后,就產生了真正意義上的數據,即有根據的數.科學數據是基于科學設計,通過使用觀察和測量獲得的數據,認知自然現象和社會現象的變化規律,或者用來檢驗已經存在的理論假設,由此得到了具有實際意義和理論意義的數據.從數據中獲得科學數據的理論,即統計學理論.科學數據是通過統計學理論獲得的,而統計學理論是為獲得科學數據而產生的一門科學.若說數據是傳達事物特征的精確語言,進行科學研究的必備條件,認知世界的重要工具,那么大數據分析就是讓數據最大限度地發揮功能,充分表達并有效滿足不同需求的基本要求.基于統計學的發展史及在數據分析中的作用,完成將數據轉化為知識、挖掘數據內在規律、通過數據發現并解決實際問題、預測可能發生的結果等是研究大數據的任務,而這必然離不開統計學.以大數據為研究對象,通過數據挖掘、提取、分析等手段探索現象內在本質的數據科學必須在繼承或改進統計學理論的基礎上產生.

統計數據的發展變化經歷了一系列過程,從只能收集到少量的數據到盡量多地收集數據,到科學利用樣本數據,再到綜合利用各類數據,以至于發展到今天的選擇使用大數據的過程.而統計分析為了適應數據可觀察集的不斷增大,也經歷了相應的各個不同階段,產生了統計分組法、大量觀察法、歸納推斷法、綜合指標法、模型方程法和數據挖掘法等分析方法,并且借助計算機以及其他軟件的程度也越來越深.300多年來,隨著數據量以指數速度的不斷增長,統計學圍繞如何搜集、整理和分析數據而展開,合理構建了應用方法體系,幫助各個學科解決了許多復雜問題.現在進入了大數據時代,統計學依舊是數據分析的靈魂,大數據分析是數據科學賦予統計學的新任務.對于統計學而言,來自新時代的數據科學挑戰有可能促使新思想、新方法和新技術產生,這一挑戰也意味著對于統計學理論將面臨巨大的機遇.

3統計學在大數據時代下必須改革

傳統統計學是通過對總體進行抽樣來搜索數據,對樣本數據進行整理、分析、描述等,從而推斷所測對象的總體本質,甚至預測總體未來的一門綜合性學科.從研究對象到統計結果的評判標準都是離不開樣本的抽取,完全不能適應大數據的4V特點,所以統計學為適應大數據技術的發展,必須進行改革.從學科發展角度出發,大數據對海量數據進行存儲、整合、處理和分析,可以看成是一種新的數據分析方法.數據關系的內在本質決定了大數據和統計學之間必然存在聯系,大數據對統計學的發展提出了挑戰,體現在大樣本標準的調整、樣本選取標準和形式的重新確定、統計軟件有待升級和開發及實質性統計方法的大數據化.但是也提供了一個機遇,體現在統計質量的提高、統計成本的下降、統計學作用領域的擴大、統計學科體系的延伸以及統計學家地位的提升[7].

3.1大數據時代抽樣和總體理論存在價值

傳統統計學中的樣本數據來自總體,而總體是客觀存在的全體,可以通過觀測到的或經過抽樣而得到的數據來認知總體.但是在大數據時代,不再是隨機樣本,而是全部的數據,還需要假定一個看不見摸不著的總體嗎?如果將大數據看成一個高維度的大樣本集合,針對樣本大的問題,按照傳統統計學的方法,可以采用抽樣的方法來減少樣本容量,并且可以達到需要的精度;對于維度高的問題,可以采取對變量進行選擇、降維、壓縮、分解等方法來降低數據的復雜程度.但實際上很難做得到,大數據涵蓋多學科領域、多源、混合的數據,各學科之間的數據融合,學科邊界模糊,各范疇的數據集互相重疊,合成一體,而且大數據涉及到各種數據類型.因此想要通過抽樣而使數據量達到傳統統計學的統計分析能力范圍是一件相當困難或是一件不可能的事.大量的結構數據和非結構數據交織在一起,系統首先要認清哪個是有價值的信息,哪個是噪聲,以及哪些不同類型的數據信息來自于同一個地址的數據源,等等,傳統的統計學是無法做到的.在大數據時代下,是否需要打破傳統意義的抽樣理論、總體及樣本等概念和關系,是假設“樣本=總體”,還是“樣本趨近于總體”,還是不再使用總體和樣本這兩個概念,而重新定義一個更合適的概念,等等.人們該怎樣“安排”抽樣、總體及樣本等理論,或人們該怎樣修正抽樣、總體、樣本的“公理化”定義,這個問題是大數據時代下,傳統統計學面臨改進的首要問題.

3.2統計方法在大數據時代下的重構問題

在大數據時代下,傳統的高維度表達、結構描述和群體行為分析方法已經不能精確表達大數據在異構性、交互性、時效性、突發性等方面的特點,傳統的“假設-模型-檢驗”的統計方法受到了質疑,而且從“數據”到“數據”的統計模式還沒有真正建立,急切需要一個新的理論體系來指引,從而建立新的分析模型.去除數據噪聲、篩選有價值的數據、整合不同類型的數據、快速對數據做出分析并得出分析結果等一系列問題都有待于研究.大數據分析涉及到三個維度,即時間維度、空間維度和數據本身的維度,怎樣才能全面、深入地分析大數據的復雜性與特性,掌握大數據的不確定性,構建高效的大數據計算模型,變成了大數據分析的突破口.科學數據的演變是一個從簡單到復雜的各種形式不斷豐富、相互包容的過程,是一個循序漸進的過程,而不是簡單的由一種形式取代另一種形式.研究科學數據的統計學理論也是一樣,也是由簡單到復雜的各種形式相互包容、不斷豐富的發展過程,而絕不是完全否定一種理論、由另一種理論形式所代替.大數據時代的到來統計學理論必須要進行不斷的完善和發展,以適應呈指數增長的數據量的大數據分析的需要.

3.3如何構建大數據時代下統計結果的評價標準框架

大數據時代下,統計分析評價的標準又該如何變化?傳統統計分析的評價標準有兩個方面,一是可靠性評價,二是有效性評價,然而這兩種評價標準都因抽樣而生.可靠性評價是指用樣本去推斷總體有多大的把握程度,一般用概率來衡量.可靠性評價有時表現為置信水平,有時表現為顯著性水平[8].怎么確定顯著性水平一直是個存在爭議的問題,特別是在模型擬合度評價和假設檢驗中,因為各自參照的分布類型不一樣,其統計量就不一樣,顯著性評價的臨界值也就不一樣,可是臨界值又與顯著性水平的高低直接相關.而大數據在一定程度上是全體數據,因此不存在以樣本推斷總體的問題,那么在這種情況下,置信水平、可靠性問題怎么確定?依據是什么?有效性評價指的是真實性,即為誤差的大小,它與準確性、精確性有關.通常準確性是指觀察值與真實值的吻合程度,一般是無法衡量的,而精確性用抽樣分布的標準差來衡量.顯然,精確性是針對樣本數據而言的,也就是說樣本數據有精確性問題,同時也有準確性問題.抽樣誤差和非抽樣誤差都可能存在于樣本數據中,抽樣誤差可以計算和控制,但是非抽樣誤差只能通過各種方式加以識別或判斷[910].大多數情況下,對于樣本量不是太大的樣本,非抽樣誤差可以得到較好的防范,然而對于大數據的全體數據而言,沒有抽樣誤差問題,只有非抽樣誤差問題,也就是說大數據的真實性只表現為準確性.但是由于大數據特有的種種特性,使得大數據的非抽樣誤差很難進行防范、控制,也很難對其進行準確性評價.總之,對于大數據分析來說,有些統計分析理論是否還有意義,確切說有哪些統計學中的理論可以適用于大數據分析,而哪些統計學中的理論需要改進,哪些統計學中的理論已不再適用于大數據統計研究,等等,都有待于研究.所以大數據時代的統計學必是在繼承中求改進,改進中求發展,重構適應大數據時代的新統計學理論.

4結論

來自于社會各種數據源的數據量呈指數增長,大數據對社會發展的推動力呈指數效應,大數據已是生命活動的主要承載者.一個新事物的出現,必然導致傳統觀念和傳統技術的變革.對傳統統計學來說,大數據時代的到來無疑是一個挑戰,雖然傳統統計學必須做出改變,但是占據主導地位的依然會是統計學,它會引領人類合理分析利用大數據資源.大數據給統計學帶來了機遇和挑戰,統計學家們應該積極學習新事物,適應新環境,努力為大數據時代創造出新的統計方法,擴大統計學的應用范圍.

參考文獻:

[1]陳冬玲,曾文.頻繁模式挖掘中基于CFP的應用模型[J]沈陽大學學報(自然科學版),2015,27(4):296300.

[3]卞友江.“大數據”概念考辨[J].新聞研究導刊,2013,35(5):2528.

[5]靳小龍,王元卓,程學旗.大數據的研究體系與現狀[J].信息通信技術,2013(6):3543.

[6]覃雄派,王會舉,杜小勇,等.大數據分析:Rdbms與Mapreduce的競爭與共生[J].軟件學報,2012,23(1):32-45.

[7]游士兵,張佩,姚雪梅.大數據對統計學的挑戰和機遇[J].珞珈管理評論,2013(2):165171.

[8]李金昌.大數據與統計新思維[J].統計研究,2014,31(1):1017.

[10]付凱.詢問法市場調研中的非抽樣誤差研究[D].南京:南京航空航天大學,2005.

作者:岳曉寧;丁宇 單位:沈陽大學

主站蜘蛛池模板: 亚洲国产欧美在线观看 | 最新qvod电影 | 色婷婷亚洲十月十月色天 | 自拍偷拍 欧美日韩 | 最新亚洲国产有精品 | 波多野结衣在线免费视频 | 国产亚洲女人久久久久久 | 久久国产一区二区 | 在线观看男女爱视频网站 | 国产片欧美片亚洲片久久综合 | 久久中文精品 | 中文字幕 自拍偷拍 | 国产黄的网站免费 | 综合久久久久久久 | 国产午夜看片 | 久久国产一区二区三区 | 久久精品免费一区二区视 | 欧美专区在线观看 | a天堂资源在线观看 | 亚洲国产欧美在线观看 | 欧美日韩小视频 | 久精品视频 | 四虎网站最新地址 | 国产日韩欧美综合 | 欧美人成一本免费观看视频 | 国产精品久久久久免费视频 | 国产免费黄 | 亚洲综合免费 | 亚洲第一视频在线观看 | 久久精品视频免费播放 | 小草影院免费观看电视剧 | 四虎影视国产884a精品亚洲 | 欧美亚洲日本视频 | 丁香伊人五月综合激激激 | 国产精品中文 | 国产精品亚洲一区二区三区久久 | 五月婷婷六月丁香 | 亚洲理论电影在线观看 | 亚洲电影免费观看 | 中文乱码一二三四有限公司 | 亚洲男人的天堂久久精品 |