本站小編為你精心準備了基于加權模型的信息傳播論文參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1相關工作
要進行用戶和APP的訪問關系分析首先是收集手機用戶數據,確定數據獲取的類型和范圍。從已有研究成果看,由于移動互聯網用戶通訊訪問的日志數據需要與移動運營商進行協調溝通才能獲取,而數據又往往涉及到用戶隱私,因此移動互聯網領域公開的通訊數據集很少,導致對移動互聯網用戶行為分析的相關研究仍舊處于起步階段,大多數研究都只是針對特定空間范圍和特定種類的用戶進行的。胡俊華等人通過在接入網網關設置的方式,獲取了一個小區內用戶3G無線網絡中用戶行為的數據,對數據進行處理后研究了3G無線網絡用戶行為模式。文獻對無線局域網環境下(校園)用戶行為進行分析,Balachandran等人同樣基于無線局域網內獲取用戶數據,如在會議室和公共建筑物,研究用戶行為和無線網絡性能。提出了解決無線網絡多重接入點負載平衡和網絡優化的負載分析模型。文獻發現了在公共建筑物等較大范圍環境下,用戶行為和網絡負載與其他小范圍環境局域網,如校園的特點類似,研究還發現網絡流量擁塞程度與用戶數量的存在弱相關性。Ghosh等人根據商業場所(咖啡館,快餐店,書店,賓館和企業)中的Wi-Fi熱點上采集的數據,研究用戶在同一時間段無線上網行為模式。從流量數據的到達模式,到達模型,連接次數,用戶數等四個方面,研究不同商業模式下的移動用戶上網模式,他們的研究工作更側重于研究移動用戶上網行為對無線網絡的負載的影響。類似地,Olmedilla等人在分析發達國家手機用戶訪問移動互聯網的通信日志之后,將通信日志分類并根據用戶訪問的網絡資源,如網頁目錄,社交標簽系統將用戶的訪問興趣建模,從而得到移動互聯網用戶的行為模式。
分析移動互聯網APP的傳播特性以及用戶對APP訪問關系時,復雜網絡和統計學結合的方法是國內外最近關注的熱點之一。Yan等人運用復雜網絡將用戶對新浪微博的訪問行為建模,發現用戶微博的時間間隔服從冪律分布,并且發現這種分布是受用戶興趣度的影響。文章提出用戶的社會身份驅動著用戶興趣的變化,并直接影響到微博的評論數和轉發數。二分圖作為復雜網絡的重要模型之一,可以用來為現實世界中大量人類行為進行建模。近些年來,二分圖由于其在社科,經濟和信息系統方面的意義,受到了人們的廣泛關注。如科學家-論文合作網,聽眾與歌曲網、演員與影視作品網,城市交通網。Newman通過建立科學家與論文二分圖,統計出該網絡的平均距離和聚類系數。文章對科學家-論文網絡兩類節點的度分布進行統計,發現科學家的時間間隔服從冪律分布,且冪指數相差很大。Lambiott等人根據人們從互聯網下載音樂的行為建立了聽眾-歌曲二分圖,通過對兩類節點聚類,研究發現聽眾群體服從冪律分布,但是聽眾所下載的歌曲數量服從指數分布。還有研究人員將二分網絡應用到協同過濾算法中,以提升算法的性能,如Liu等人將二分網絡的兩端端點度的關聯建模以提高推薦效果。本文應用二分圖對用戶對APP訪問行為進行建模,該模型可有效地展現用戶的訪問行為。
2.1二分圖模型的建立在移動基礎網絡中,每條通信日志數據均代表一個終端用戶對移動網絡的訪問。通過剔除手機瀏覽器產生的數據包,其余日志數據均代表了用戶主動或被動產生的APP網絡訪問行為。一個用戶可訪問多個APP,一個APP可被多個用戶使用,從而產生了用戶-APP的二分視圖,用二分圖模型來刻畫描述該訪問關系。圖1為二分圖模型示例,該圖以根據2014年3月某天中午12:28:55到12:46:56時間段內某省移動網絡國際出入口口捕捉到10次用戶訪問APP通信行為日志為數據基礎,分別記錄了5名手機上網用戶訪問APPledaily和nextmedia等2個新聞類APP產生的日志。其中,用戶1u、4u訪問了2c的APP的次數均為1次。
2.2加權投影網絡圖二分圖模型量化描述了用戶訪問各種APP的統計情況,將二分圖加權投影到單頂點網絡,從兩類節點,用戶和APP的視角分別投影,然后進行網絡分析可有效地在二分圖基礎上得到APP之間的關聯程度圖,從而挖掘出APP之間的關聯程度。APP之間的關聯程度圖可以分析出各種業務關聯的強弱,如發現喜歡使用某APP的用戶還喜歡使用哪些APP,從而有助于深入分析移動互聯網用戶訪問行為和使用習慣,了解用戶對移動互聯網服務的使用偏好,為應用開發者提供行業發展動向,改善APP用戶體驗分析和競爭對手比較的優勢和不足。首先,可以定義二分圖上APP之間的關聯程度圖。相同用戶訪問過的兩個APP可連邊,邊權重代表兩個APP覆蓋相同用戶的數量,如式(1)所示。APP關聯圖反映出同時訪問不同的APP的用戶數。
2.3模型指標及其物理意義二分圖的節點的度表示為與該節點相連接的其它節點的數目。用戶節點的度的形式化定義為式(2),其物理意義是用戶訪問過的APP業務種類數。二分圖的節點權重度定義為與該節點相連的所有的邊的權重之和,其物理意義是主要根據邊權重的定義而定。此文中根據模型中邊權的定義,用戶節點權重表示用戶訪問各類APP產生的總點擊次數,APP節點權重表示各個用戶訪問該APP的總點擊次數。用戶節點權重的形式化定義為。在本文中,度的量化可以是訪問次數(日志條數),也可以是每次訪問的產生的流量比特數,根據實際使用的需要不同而不同。
3訪問日志數據集及預處理
3.1日志數據預處理由于移動互聯網APP種類多達數百萬款,本文選取了運營商關注的前十種典型APP作為研究對象,以APP通信規則對日志大數據實施預處理,篩選出相關訪問日志。例如,從省移動運營商網絡出入口口的流式海量日志數據中提取一段時間(例如一周中的六天)內主流APP“蘋果日報”產生的http報文,均包含“AppleDaily”URL字符串,再排除手機瀏覽器產生的相關數據后,可發現該APP日均在該省有約1000萬條訪問日志涉及6000個獨立手機用戶。本文分別用APP1-APP10標識所分析的這10個APP,并詳細分析用戶訪問日志記錄。
3.2訪問日志數據集本文采集了2014年3月份某省國際網絡出入口周一到周六共6天的流量數據,數據規模達650億條日志,獨立移動互聯網用戶達1050萬個。針對運營商關注的APP名單和相關通信特征規則中,挑選10款主流不同類型的APP的通信特征。從650億條日志中提取相關日志記錄,共取得約共9000000條日志,包含約17000個獨立手機號用戶。650億條日志涉及的獨立用戶總數為1050萬。每條訪問日志包含表1中的各個字段,日志數據格式如表1所示。如上所示,系統記錄用戶請求AppleDaily應用的時間為2014年3月3日,請求開始的時刻為12:28:55。源IP為116.25.19.21,源端口為19331,訪問的目標IP是69.192.4.163等信息。
4基于二分圖模型的APP信息傳播特性分析
本文基于用戶-APP二分圖模型,提出如下各項算法分析移動互聯網用戶對APP的訪問特性,首先根據所選取的數據,分析用戶訪問興趣,得出用戶訪問的APP范圍和用戶在移動互聯網的活躍程度。然后探討了選取的10個APP的用戶滲透率,用戶使用率,用戶粘性在一天內四個時間段的分布情況。并給基于三項指標,計算了10個APP在六天內的變化情況。最后通過分析,得出10個APP之間的訪問關聯性。下面介紹具體的分析過程。
4.1用戶訪問興趣
4.1.1用戶訪問的APP范圍在復雜網絡中,常用節點的度分布來描述網絡的整體特征。對用戶節點的度進行統計分析,可以發現用戶訪問的APP數規律,從而發現用戶對移動互聯網的興趣范圍。圖3顯示了用戶節點的度分布特征和擬合情況。從圖中可以看出:(1)用戶節點的度分布在半對數坐標下近似呈一條直線,通過線性回歸分析,求得用戶節點的度服從=1.720的指數分布,即用戶對APP的訪問服從指數分布。(2)用戶訪問的APP數體現了用戶的興趣范圍,90%以上的用戶只請求很少幾類APP,平均度是1.92,說明大多數的用戶只訪問少數種類的業務,對移動互聯網興趣集中,用戶節點的最大度是8,表明仍存在少數的用戶,對移動APP興趣比較廣泛。
4.1.2用戶在移動互聯網中的活躍程度用戶對所有APP的請求次數體現了用戶的活躍度,在用戶-APP二分圖中,用戶的活躍程度可以用權重度us來計算,即APP節點權重表示各個用戶訪問APP的總點擊次數。圖4顯示了用戶節點的權重度分布特征和擬合情況。從圖中可以看出:(1)用戶節點權重度分布具有明顯的重尾特性,在雙對數坐標下近似呈一條直線,通過線性回歸分析,求得權重度服從=2.784的冪律分布。(2)用戶對移動互聯網的APP的訪問表現出較強的非均勻性,大部分的普通用戶對APP的請求都較少;而一些少量的用戶表現的非常活躍,而這些活躍用戶成為了移動互聯網中主要訪問APP的用戶。
4.2APP用戶滲透率APP用戶滲透率定義為訪問該APP的用戶數量占用戶總數的比例。該指標可用于刻畫該APP信息傳播的覆蓋范圍和流行普及程度,用于量化評估某APP消耗運營商線路帶寬的程度。根據用戶-APP二分圖模型,用戶滲透率jcUP的計算如下式。從圖中可以看出,同類APP每個時間段的用戶滲透率分布呈現相似性,APP1,APP4和APP7的用戶滲透率較高,其中APP7的用戶滲透率最高,在H1-H4時間段的用戶滲透率分別為43.71%,43.17%,48.80%和52.86%,說明此APP普及程度最廣。而APP2,APP6和APP8在四個時間段的平均滲透率最低,說明該APP普及程度較低。
4.3APP用戶使用率APP的用戶使用率定義為用戶對某APP的訪問次數占所有訪問次數的比例。根據用戶-APP二分圖模型,用戶使用率jcUU的計算如下。從圖中可以看出,除APP2,APP6和APP10之外的七個APP,每個時間段的用戶使用率分布呈現相似性,說明H1時段是凌晨休息時段,上網信息的需求較低影響到了APP2,APP6和APP10的使用,而其他APP未受到影響。APP1,APP4,APP7的用戶使用率較高,其中APP7的用戶使用率最高,在H1-H4時間段的用戶使用率分別為33.04%,39.55%,59.00%和51.93%。APP2和APP10使用率較低。從圖5和圖6可以發現,APP的用戶滲透率和用戶使用率表現出正相關的特性。
4.4APP用戶粘性用戶粘性又被稱為顧客忠誠度,被定義為所有訪問該類APP的用戶的平均訪問次數。用戶粘性對于衡量用戶是否對某一APP的服務產生偏愛,能否長期重復購買該產品具有重要的刻畫能力,是衡量APP價值以及競爭力重要指標之一,對于提高顧客滿意度有重要的指導意義。根據用戶-APP二分圖模型。用戶在六天中四個時間段內訪問APP的平均用戶粘性如圖7所示。從圖中結果可以看出,APP8的用戶粘性最高,在H1-H4時間段的用戶粘性分別為76.46,50.88,31.39和34.08。APP9和APP10的用戶粘性在10個APP中最小,說明APP9和APP10的競爭力最弱。還可以看出,除APP6和APP7外,在H3時間段其余APP的用戶粘性均很小,在說明這個時間段內,APP6和APP7的用戶粘性與其他APP不同,H3時間段對與提升這兩個APP的用戶忠誠度更重要。
4.5APP用戶訪問時段分布將一天分成四個時間段的實時數據只能表現用戶的行為,一周之內連續六天用戶對APP的訪問情況則更能表現用戶的總體行為。我們通過數據對比發現用戶每天四個時間段對APP的訪問模式并不會發生顯著變化,所以我們選取一周之內連續六天的H2時間段,每個APP的用戶滲透率,用戶使用率,用戶粘性變化情況進行統計。如圖8所示,可以發現除APP2之外,其余APP用戶滲透率在六天之內變化不大,基本上保持平穩。說明所比較的大多數APP的用戶滲透率并因為工作日和周末而受到影響。還發現,使用率較高的幾個APP,如APP1,APP4,APP7的使用率在連續六天變化并不大;反而是使用率較低的APP,如APP2和APP10使用率波動較大。所比較的10個APP中,用戶粘性最大的APP8在連續六天內的用戶粘性并不穩定,同樣用戶粘性不穩定的還有APP4,說明在用戶粘性方面這兩個APP在一周的中間時段需要提升。
4.6各類APP之間訪問關聯性分析根據APP關聯圖計算方法,可探究出APP之間的關聯性,其現實意義是發現訪問某APP的用戶群還會訪問哪些APP,用以發現類似的APP及類似的信息傳播渠道。首先,建立二分圖上APP之間的關聯程度圖ccGC,E。用實心圓來表示APP節點,APP的用戶滲透率大小按照實心圓的面積大小來直觀反映。節點的面積越大,對應的業務類的用戶滲透率也就越高。邊的權重表示業務類之間的訪問關聯性。我們通過數據對比發現用戶每天對APP的訪問模式并不會發生顯著變化,所以我們對一天之內的APP訪問關聯性進行統計。以2014年3月3日用戶對APP的訪問日志數據為例,如圖9所示,我們發現(1)在APP關聯圖中,節點的入度越大,說明該節點在網絡中越重要。APP7的入度是最大的,為8。說明APP7與其他APP的關聯更緊密一些,APP7是APP關系網絡中關鍵的節點,是用戶最普遍使用的APP。(2)21.37%的訪問APP3的用戶會訪問APP7,而3.04%訪問的APP7的用戶還會訪問APP4.
5結論
本文通過分析用戶對移動互聯網APP訪問日志,獲取相關數據,重點分析了用戶對APP的興趣范圍以及用戶在移動互聯網中活躍度,10個移動運營商關注的APP的用戶滲透率,用戶使用率,用戶粘性,以及APP之間關聯性。文章采用二分圖分析方法對用戶對APP的訪問關系進行建模,分析不同時間段,各個分析指標的變化,并給出和驗證了他們之間的關系,對移動互聯網的網絡管理、運營決策等都具有重要意義。
作者:吳瀟聶嘯劉曉輝高詩夢曲冠南鈕艷單位:國家計算機網絡應急技術處理協調中心電子科技大學計算機科學與技術學院吉林大學計算機科學與技術學院