本站小編為你精心準備了統計數據處理中Python的應用參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
摘要:大數據為政府統計工作帶來了機遇和挑戰,統計大數據應用目前已進入推進實施階段,但現有統計數據處理平臺不能較好地滿足大數據應用的需要。本文通過使用python對農業普查大數據進行挖掘分析和數據可視化,探索Python在統計數據處理中的應用。
關鍵詞:統計;數據處理;Python
一、引言
為深入貫徹落實黨的關于“完善統計體制”重要部署和中央《關于深化統計管理體制改革提高統計數據真實性的意見》,積極落實《國務院關于印發促進大數據發展行動綱要的通知》,努力適應大數據的蓬勃發展給統計工作帶來的機遇和挑戰,創新統計工作方式,提高統計工作效率,強化大數據在統計工作中的運用,加快構建新時代現代化統計調查體系,近期國家統計局制定了大數據應用工作方案并進行了安排部署。方案總體目標之一,是要運用云計算、大數據等信息技術和資源,在“四大工程”建設成果的基礎上,改革完善統計業務流程,全力完善統計數據來源傳統之軌。具體來講,就是完善結構化數據的傳統之軌,在不改變現有機構、人員和職責分工的前提下,整合普查、常規調查和專項調查等數據,打破專業壁壘和信息孤島,實現數據共享和深度開發。其中重點項目包括:進一步挖掘普查數據應用的潛力,通過大數據處理技術整理普查原始數據,提高開發應用普查數據的能力。本文嘗試利用Python的特點和優勢,對某地區農業普查數據進行挖掘分析和可視化場景實現,以此來展示Python在統計數據處理中的應用效果。
二、傳統統計數據處理系統的功能特點和不足
目前,企業一套表系統和大型普查數據處理系統是政府統計進行數據生產的兩個主要平臺,由國家或省級確定企業填報目錄和填報報表制度,定期(月度、季度、年度)由企業聯網直報數據,統計系統內人員進行審核、計算、匯總,生成綜合數據。這兩個統計數據處理系統的主要功能是數據采集、數據審核、數據匯總,為采集、處理、傳輸、公布傳統統計數據發揮了不可替代的作用,但隨著大數據處理技術的發展和傳統統計數據資源深度開發的需要,發現其在整理計算加工、數據挖掘分析、可視化展示等方面存在先天薄弱和不足,迫切需要尋找能夠彌補其功能短板的軟件和工具。
三、Python的特點和優勢
統計界廣泛使用的傳統工具有SAS、SPSS、R等,隨著大數據時代的到來,Python在大數據處理工作中脫穎而出。相比傳統的統計工具,Python的特點和優勢更為突出:一是簡單易學、普及程度高,國外出現了在義務教育階段就開始教授Python的情況。全國普通高中2017版“新課標”改革中,正式將人工智能、物聯網、大數據處理劃入新課標,意味著Python在我國進入了高中教育。二是Python在大數據處理性能方面與傳統工具相比速度要快,可以直接加載處理上GB大小的數據,而傳統工具受限于性能原因則通常需要將大數據分割為數個小數據再進行處理。三是開源生態活躍、功能豐富。隨著Python擴展庫不斷發展壯大,Python在科研、電子、政府、數據分析、web、金融、圖像處理、AI技術等各方面都有強大的類庫、框架和解決方案。Python擁有Matplotlib及numPy這樣強大的繪圖庫和數值擴展,能幫助科研學術人員快速地進行可視化和數值分析。Python提供的pandas擴展庫,包含了全套的統計函數和數據處理方法,可以高效處理海量數據矩陣,輕松地進行切片/切塊、聚合、重采樣等,其豐富的功能和強大的算法已經成為數據處理任務的首選解決方案。因此本文使用Python及擴展庫,對統計數據處理中的幾個典型應用場景進行實現。
四、Python在統計數據處理中的應用場景實現
(一)環境準備操作系統:Ubuntu18.04.1LTS應用程序:Python-3.6.5Pandas-0.24.2Matplotlib-3.1.0
(二)數據源準備登錄農業普查數據處理平臺,對某地區主要農作物(小麥、玉米)種植數據按照農戶(播種面積<50畝)、規模戶(播種面積≥50畝)區分進行自定義指標查詢,指標包括:農作物代碼、播種面積(畝)、平均每畝產量(公斤)、每畝化肥平均施用量(公斤)、農藥噴灑次數、實際耕地面積(畝)、灌溉耕地面積(畝)、是否機耕。并將平臺中的查詢結果以csv格式導出成數據文件guimo.csv和danwei.csv。
(三)應用場景場景一:數據預處理數據預處理包括數據清洗、數據集成、數據變換和數據規約。數據清洗主要完成缺失值處理、異常值處理,數據集成是將多個數據源整合成一個,數據變換主要完成對數據進行規范化處理,比如函數計算、屬性構造、規范量綱等,數據規約就是消除無效、錯誤數據的影響。本文使用Pandas庫加載平臺導出的數據為DataFrame類型對象進行數據切片、空值填充、無效值移除、灌溉率列計算、切片拼接整理,生成標準數據文件all.csv,結果見表1。場景二:數據特征描述數據特征描述是對總體變量的有關數據進行統計性描述,主要包括頻數分析、集中趨勢分析、離散程度分析、分布以及圖形可視化。利用頻數分析可以檢驗異常值;通過數據集中趨勢分析來反映數據的一般水平,常用的指標有平均值、中位數和眾數等;利用數據的離散程度分析來反映數據之間的差異程度,常用的指標有方差和標準差。本文用箱體圖的形式來表達數據,可以更清晰、直觀地呈現總體數據特征。1.數據準備。使用Pandas庫加載標準數據文件all.csv,按照小麥和玉米、農戶和規模戶兩類分組,使用describe函數計算每畝產量的均值(mean)、標準差(std)、最大值(max)、最小值(min)、四分位值等數據,其中“低奇異值占比”是指低于中位數的奇異值個數占總數的百分比,計算結果見表2。3.結果分析。從表2看,規模種植小麥畝產均值502.68公斤,高于農戶467.88公斤,高出7.4%;規模種植玉米畝產均值541.28公斤,高于農戶518.51公斤,高出4.4%;規模種植小麥畝產標準差73.46公斤,低于農戶93.92公斤;規模種植玉米畝產標準差90.85公斤,低于農戶99.71公斤。從圖1看,規模種植小麥畝產低奇異值占比1.94%,低于農戶3.29%,規模種植玉米畝產低奇異值占比3.97%,低于農戶4.70%。從以上分析可以得出結論:規模化種植是實現主要農作物高產、穩產的關鍵。這與目前該地區農業生產實際情況相契合。場景三:相關分析相關分析是研究變量之間是否存在某種依存關系,用計算相關系數來表達變量之間相關方向以及相關程度。常用的三種相關系數(pearson,spearman,kendall)反映的都是變量之間相關方向以及程度,其值范圍為-1到+1,0表示兩個變量不相關,正值表示正相關,負值表示負相關,值越大表示相關性越強。由于spearman相關系數沒有某些數據條件的特別要求和限制,適用范圍廣,所以本文采用它來研究某地區主要農作物每畝產量與播種面積、每畝化肥用量、農藥噴灑次數、是否機耕、灌溉率等變量的相關關系,并用雷達圖直觀地顯示出來。1.數據準備。使用Pandas庫加載標準數據文件all.csv,按照小麥和玉米、農戶和規模戶兩類分組,利用corrwith函數計算每畝產量與播種面積以及其他幾個變量的spearman相關系數,計算結果見表3。2.可視化呈現。使用matplotlib.pyplot中subplot(polar=True)方法來繪制雷達圖如圖2:3.結果分析。從圖表來看,在規模種植的情況下,無論是小麥還是玉米,畝產與播種面積以及其他幾個因素呈現微弱相關或者不相關(相關系數絕對值小于0.3甚至接近0);在農戶種植情況下,小麥畝產與播種面積以及其他幾個因素的相關程度要高于玉米畝產;無論是小麥還是玉米、農戶還是規模種植,畝產與是否機耕均不相關(相關系數絕對值接近0);在農戶種植情況下,小麥畝產與灌溉率呈現顯著相關關系(0.49),玉米畝產與灌溉率呈現低度相關關系(0.39),小麥畝產與農藥噴灑次數呈現低度相關關系(0.34)。從以上分析可以得出結論:農戶種植相對于規模種植,對種植資源(耕地、農藥、化肥、農機、水利等)的關聯程度較為明顯,因此規模化種植是實現主要農作物高產與種植資源集約高效利用的關鍵。這與目前該地區農業生產實際情況相契合。更多場景:對主要農作物畝產、化肥使用、農藥噴灑進行強度分析,利用熱力地圖,按照對象代碼的行政區劃呈現區域分布;對所有種植戶進行每畝產量、播種面積等多維度聚類分析,利用樹狀分類圖,呈現某區域主要農作物種植情況等。
五、應用建議
Python以簡單易學、語言簡潔、開發快速、可擴展性豐富等特點,使得進行大數據分析更加得心應手。另外,Python具有膠水語言的特性,能夠兼容絕大部分的編程語言環境,對于傳統統計數據處理平臺可以進行嵌入和對接。因此建議加大Python在統計數據處理中的推廣應用:一是將大數據處理思想體現在傳統統計的制度設計階段,改進制度指標設置,有利于后期大數據分析挖掘應用;二是將大數據處理技術運用到傳統統計數據采集過程,實時掌握數據的分布形態、數值大小及離散程度,及時發現問題并糾正錯誤,提高數據質量;三是加強大數據處理技術在統計數據挖掘分析和可視化展示方面的應用,構建面向政府統計系統開放的統計大數據源應用開發生態圈,營造應用示范效應。
作者:胡前防 連鵬偉 陳乾坤 單位:安陽市統計局數據管理中心