本站小編為你精心準備了社交媒體信息系統設計論文參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1系統架構
數據存儲:負責存儲社交媒體數據以及應急信息實時分類模型。采用MongoDB存儲微博數據。MongoDB是基于文檔存儲的數據庫,適合用于組織、管理微博數據。另外,微博數據具有位置信息,MongoDB支持空間索引,有利于進行后續的空間查詢。數據挖掘:是系統的核心模塊。結合GIS原理,運用“圖片+描述”形式再現突發事件的發生情景;采用自然語言處理技術、話題模型、監督分類方法從實時的短文本提取和分類應急信息,標注在地圖上;從社交媒體數據量和空間屬性出發,統計、分析、探尋突發事件趨勢,為應急決策提供依據。結果可視化:是系統的特色單元。該模塊將數據挖掘產生的圖片集、信息分類表、趨勢線以圖、表的形式,同時結合了WebGIS的相關方法,輸出到Web瀏覽器端。
2關鍵技術
本文研究了基于社交媒體突發事件應急系統的多個關鍵技術:情景再現、應急信息提取、趨勢分析等。情景再現:可整合社交媒體數據的直接信息,結合時間、空間對突發事件的圖片文字等信息進行查詢,展示事件發生情景;應急信息提取:利用實時應急信息分類方法,提取、分類出突發事件的狀況、救援等應急信息,標注在地圖上;趨勢分析:通過分析微博的數量變化和空間分布,揭示突發事件趨勢和公眾關注點。
2.1情景再現
在突發事件中,目擊者的照片(尤其是手機拍攝的照片)使得公眾報道在災害應對中越發重要[5]。因為圖片給人們最直觀的感受,特別是在自然災害發生時,圖片能夠描述災害的發生情景,客觀反映災害造成的破壞場面,為應急決策提供直接的證據。情景再現,是采用“圖片+描述”方式,通過圖片、文字描述突發事件在空間上的最新發展狀況。社交媒體具有很強的時效性,加上人們對突發事件的最新動態較為敏感。所以,最近一段時間的圖片適合表現突發事件的發展狀況。另外,突發事件可以抽象為地理空間上的地理現象,社交媒體數據具有位置信息,可利用地圖的可見范圍來約束突發事件情景的范圍。由此可見,情景再現實質上是多維信息查詢,包括時間、空間、圖片信息三個維度。多維度查詢也很好地緩解了在瀏覽器端繪制時的效率問題和壓力問題,特別是空間的限制,大大地提升地圖交互能力。系統采用AJAX技術實現按需加載圖片,加快瀏覽器的響應速度。
2.2應急信息提取與定位
微博的大部分信息以文本的形式存在。從文本自身特點來看,文本短小且信息雜亂,包括事件狀況、求援、救援、評論、商家廣告等多種多樣信息。從信息流來看,微博文本是實時獲取的,具有實時變動性。本文提出了一種從海量、實時的社交媒體數據中提取應急信息的方法,學習過程:系統初始化時,當文本積累一定量后,訓練初步模型。取出數據庫的所有文本,把每條微博文本看成一個文檔,即得到文檔集。文本預處理包括去掉重復微博,采用中文分詞器Ansj分詞、去掉停用詞,獲得分詞后的文檔集,作為話題模型LatentDirichletAllocation(LDA)的一個輸入。設定好主題個數后,采用隨機模擬的GibbsSampling算法,得到各個文檔的主題和各個主題的單詞分布(即詞庫)。如此,文檔集的大部分文檔被標記了。將單詞為特征、主題為類別的文檔集輸入到監督算法SupportVectorMachine(SVM)做訓練,調優并得到初步應急信息分類模型。預測過程:模型訓練好后,新的微博文本經上文相同的文本預處理,得文本的所有特征(單詞),輸入到訓練好的應急信息分類模型,輸出所屬主題;同時結合LDA生成的主題詞庫,判斷文本的主題類型,并標注在地圖上。更新過程:主要針對模型和主題詞庫的更新。考慮到信息采集速率,與上個模型相隔2個小時后,取出所有文本,重復學習過程重新得到模型和詞庫,以適應微博話題隨時間的變化,提取新的應急信息。
2.3趨勢分析
人們除了關注突發事件的最新情況、應急信息,還想了解事件的發展趨勢。系統從時間趨勢和空間分布兩個方面來表現突發事件的趨勢。研究表明[6]:社交媒體數據可以被用來甄別事件在時間上的發展趨勢,甚至做出預測。為揭示突發事件時間發展趨勢,我們統計每小時的微博總數、用戶參與數、轉發數,通過觀察趨勢線的最高點和拐點來發現趨勢。另外,詞云圖利用中文分詞技術處理一定時間內的微博內容并統計高頻詞匯,找出人們討論的熱點話題以及其隨時間的變化。微博數據攜帶位置信息,反映了突發事件的空間分布。系統使用了聚類分析和核密度估計來發現事件空間分布規律。聚類分析通過對微博點在空間距離上做聚類,以便尋找事件在空間的分布狀態,分配應急資源;核密度估計很好地反映了事件在空間上的熱點區域,有利于發現問題區域所在。
3系統的主要功能
3.1查看、瀏覽圖片功能
1)采用“圖片+描述”形式,通過縮略圖、大圖與地圖聯動來展示突發事件的情景。當點擊圖片時,地圖中心會移動到圖片對應的坐標點,并彈出信息框,包括者、微博內容、時間和經緯度等;當點擊地圖上的點時,該點對應的圖片出現在圖片框中央。2)添加按時間、熱度排序的功能,便于查看最新、最熱的圖片。圖3展示了2012年“7.21北京特大暴雨”中某條微博的圖片、文字、地點等情景。
3.2定位應急信息功能
1)利用實時應急信息分類方法,提取并分類好微博文本的應急信息。采用表格形式展現應急信息,每個表格與一個主題關聯,主題以標簽的形式表現在網頁中。當點擊相應標簽,表格內容隨之發生改變。2)每條文本與地圖聯動。當點擊表格中文本時,地圖中心會移動到文本對應的坐標點,方便定位應急信息,展開救援。圖4展示的是“7.21北京特大暴雨”微博經過應急信息提取后得到“救援信息、天氣預報、損失與影響”等主題,及“救援信息”主題下的救援信息。
3.3時空趨勢分析功能
1)利用Echart圖表,統計每小時的微博總數、用戶參與數、轉發數,以及趨勢線(微博總數減去轉發數),使用放大窗口查看曲線的局部細節,如圖5所示。在A點和B點前一個小時,北京市氣象臺分別了暴雨橙色預警和暴雨黃色預警。2)當點擊曲線上的拐點時,利用AJAX技術,在地圖上動態加載每個小時的點數據。通過切換不同圖層(熱點圖和聚類圖),可查看暴雨微博的空間分布情況。圖6左上部分為“7.21北京特大暴雨”微博的熱點圖,暴雨微博在地鐵1號線和首都機場附近出現聚集現象,反映了暴雨事件空間熱點分布。
3.4發現熱點話題功能
另外,系統采用詞云圖和柱狀圖來展現最新微博的高頻詞匯,反映最近時間內突發事件的話題變化。圖6右、下部分展示了截至7月22日10時“7.21北京特大暴雨”的詞云圖和高頻詞匯柱狀圖,直觀地展現人們的討論熱點話題,如“大暴雨、回家、平安、積水”等。除了多種的表現形式,數據可視化還要考慮多圖層繪制效率問題、大數據量的渲染壓力問題。為了解決這些問題,我們可以采用圖層控制、矢量繪制點、使用JSON包裝處理結果等方法。
4結束語
系統利用社交媒體這種新型數據源,有效地從中挖掘突發事件應急信息,彌補了傳統應急系統信息單一信息源的不足。首先,本系統利用社交媒體的多媒體數據———圖片,直觀地展現事件發生時的場景;其次,通過對實時文本流進行提取與定位,有效地提煉出突發事件應急信息;最后分析了突發事件的時空發展趨勢,有利于制定后續應對措施。但目前系統還未能通過偵聽突發事件而自啟動,自動化不夠。在今后的研究中,可利用社交媒體來偵察突發事件,自動開始獲取數據。同時在突發事件后期,通過社交媒體數據做事后評估,如自然災害的受災范圍和損失等。
作者:朱建奇王艷東葉信岳荊彤李劍萍單位:武漢大學測繪遙感信息工程國家重點實驗室肯特州立大學地理系