本站小編為你精心準備了新聞熱度預測數據模型的構建及實證參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
【摘要】隨著互聯網發展,各式新媒體涌現,“流量之爭”愈演愈烈,提高新聞熱度成為媒體運營重心。本文將C4.5決策樹分類算法應用于新聞熱度預測,分析挖掘規律。對新聞類別、圖文設置、詞語運用等進行處理,從中選取決策屬性構造決策樹,預測新聞是否會成為熱點,并據此提供易實行的優化方案,對提高熱度有很大的幫助。
【關鍵詞】C4.5;決策樹;熱度預測
1研究背景和意義
1.1研究背景我們身處于一個信息爆炸的時代,五花八門的新聞時刻都在產生。大到政局變動、科技研究、金融形勢,小到鄰里糾紛、氣象變化、明星八卦,各類不斷更新的信息充斥著我們生活的每一個角落。然而,隨著互聯網發展,各式新媒體涌現,我們在接收信息的過程中常會受到無用冗余信息、重復繁瑣信息的困擾。對新聞受眾來說,需要能夠更智能、更具有針對性的篩選過濾新聞信息的工具;而對于新聞傳播者來說,則需要提高新聞熱度,拓展新聞擴散范圍,在愈演愈烈的“流量之爭”中勝出,在行業中取得優勢。與此同時,當廣告投放與大眾傳媒結合,便需要廣告商有效利用信息傳播優勢,最大化運用已有受眾資源并對他們進行誘導和滲透,以刺激信息受眾的消費行為,最終達到營銷的目的。由此可見,新聞熱度正扮演著越來越重要的作用,對這些數據的預測對新聞生產者來說具有重要意義。除了提高總體的效益,新聞熱度預測還可以為新聞內容的針對性優化提供方向,讓新聞更貼合讀者需求,有時還能通過圖片、文字等潛移默化的影響目標受眾的生活方式、消費態度乃至價值觀念,為媒體的長足發展打下堅實的基礎。
1.2研究意義當新聞報道越來越離不開數據,甚至計算機在某些新聞題材前已經比人更加具備競爭優勢,新聞生產者就應當因時而變,通過提高新聞熱度努力創造自身優勢。運用數據分析挖掘相關技術,對新聞熱度進行有效的預測,不僅可以使新聞更具針對性,更有效地被受眾接收,更能為媒體積累受眾資源,有利于未來發展。熱度的預測為新聞內容的優化提供思路,也為廣告信息的有效傳播提供了保障。在全球范圍內,預測新聞熱度正在成為一種趨勢。依據社交網絡中的交互數量,例如互聯網點贊、分享、評論數量,以及傳統紙媒的銷售量,新聞生產者可以合理有效地開展熱度預測,提升自身競爭力,加快發展進程。
2文獻綜述
事實上,運用數據統計、挖掘、分析技術來支持新聞生產,進行合理預測已不是一個新想法。國外早有從事新聞與數據相關工作的研究團隊認為,預測在線新聞的流行正在成為一種趨勢。影響新聞熱度的原因是多方面的,最傳統的影響因子是新聞內容。有沒有獨家的消息、見解是否獨到深刻等等都會成為我們衡量一則新聞價值的參考因素。史安斌,廖蝶爾(2014)[1]曾經提到利用數據進行新聞內容優化的方法。他們還認為當今的專業記者應當擅于挖掘數據,致力于將新聞信息轉化為生動的故事和深邃的洞見,并且借助于新媒體使新聞報道呈現出“可視性,縱深性,互動性”的特點,滿足受眾對新聞報道“更準確,更深入,更直觀”的要求。有的研究者從新聞本身的內容出發預測新聞熱度,對新聞進行分類,從而便捷的幫助人們獲得想知道的信息。Bandari(2012)[2]認為用四種類型的特征(新聞來源,文章的類別,主觀使用的語言和文章中提到的名稱)來預測流行程度是十分可靠的。事實上,2004年開始,谷歌、百度的新聞(或資訊)頻道,就已經依賴搜索技術和計算機算法來進行新聞的整合以及在網頁上的呈現。即便計算機算法對新聞內容的編排原則相對簡單,并無編輯精心設計的格式版面,但對于那些更愿意自己來進行新聞價值判斷的受眾來說,這樣的新聞呈現也有它獨特的魅力。另外,有的研究者從新聞的閱讀體驗出發探究對新聞傳播的影響,因為當下僅靠內容出彩已難以贏得競爭的絕對優勢。劉進(2017)[3]在承認新聞內容作用的基礎上,進一步闡發了他關于閱讀體驗對新聞熱度影響的看法。他曾經談到,“我們不要死抱著‘內容為王’這唯一的法寶不放,用戶的需求、用戶的體驗是我們不得不面對的問題。”而想要提高用戶滿意度,更精細化的設計和考慮是不可缺少的。比如,新聞的版面是否簡潔清爽,圖片插入是否喧賓奪主,等等都需要被充分考量。Petrovic等(2011)[4]提出,轉發使用與推文內容相關的功能(例如,主題標簽的數量,URL,長度,單詞)應當被密切關注。吳林錫(2015)[5]則認為新聞當中圖片的選擇意義重大,“只有盡可能簡單、直接、有趣地將信息呈現給受眾才會獲得用戶注意力。”這就充分體現了新聞配圖的作用。畢竟,圖片以其直接的特點能充分刺激受眾想象,使新聞更加生動形象。通過對多元數據集的研究,探尋影響新聞流量的主要因素,可以準確的對新聞熱度進行預測,從而對如何優化新聞、更有效提升新聞競爭力有一個更好的了解。熱度預測也將涉及決策上的強化,使新聞投放效果更理想。本課題通過對大量可能影響新聞熱度的因素進行數據挖掘,以數據挖掘的經典模型決策樹C4.5為理論支撐與分析方法,探究了熱度高低與眾多因素之間的關聯性,并力求將其應用到新聞預測與決策優化上去。
3數據來源和模型介紹
3.1數據來源本文的數據來源于UCI數據,包含了30000左右條數據。具體的變量解釋如表1。
3.2模型介紹在數據挖掘中,決策樹是一個常用分類模型。它是一種類似于流程圖的樹形結構,每一個內部的非樹葉節點代表了一個特定屬性上的測試,每一個分枝則代表了相應的測試輸出,這樣就完成了對不同標簽的分類。決策樹最頂端的節點稱為根節點,它通常囊括了所有涉及的樣本點。樹葉節點中存放類標號,和決策的結果相對應。這樣,一個根節點、若干內部節點和若干葉節點就構成了一棵完整的決策樹。3.2.1ID3模型ID3算法是決策樹學習方法中最具影響和最為典型的算法,以從樹頂向下遞歸的分枝方式構造決策樹,最核心的關鍵步驟是屬性的選擇,即選擇分裂準則。其中,應用最廣泛的準則是信息增益。信息增益的度量標準是看特征X能為分類系統帶來信息的多少。信息增益越大,該特征越重要。在介紹信息增益之前,先對熵的概念進行以下闡釋。熵(Entropy),即信息量,是度量樣本集合純度最常用的一種指標,它是信息的期望值,計算的是所有類別中所有可能值所包含信息的期望值。設離散型隨機變量X的概率空間為X的所有取值的自信息的期望稱為X的平均自信息量,即為熵。其公式為ID3的優點在于可以選擇具有最大信息增益的屬性作為當前節點的測試屬性,那么對后續劃分的子集進行再分類所需信息量最小。這樣就可以減少分類次數,產生結構最簡單、分類速度最快的決策樹。然而,ID3也具有顯而易見的缺點。它偏向于選擇取值較多的屬性,但這一屬性常被證明不那么重要,且對該屬性的測試并不能帶來相應需要的信息。它傾向于忽略小數據量的組分,再具體運用中顯得不夠全面。3.2.2C4.5模型C4.5算法能很好的彌補ID3算法在實際應用中產生的誤差。在繼承ID3算法優點地基礎上,C4.5算法用信息增益率作為選擇屬性的標準,有效彌補了ID3算法中趨向于選擇取值多的屬性的不足。
4實證分析
4.1數據預處理在將數據代入weka分析之前分段,分別處理如下:標題為n_tokens_title的數據,把取值為2-8的賦值為1,9-10的賦值為2,11-12的賦值為3,大于13的數據賦值為4。標題為n_tokens_content的數據,將所有小于433的賦值為1,大于432小于721的賦值為2,720-1200的賦值為3,大于1200的賦值為4。對題為num_hrefs的數據組,將取值為1,2的分別記為1,2,大于2的記為3。對標題為num_imgs的數據,取值為0,1,2的分別記為0,1,2,大于等于3的通通記為3。標題為num_videos的數據,值為0的記為0,大于0的記為1。最終結果標簽為share,取值在0-999的記為D,1000-1599的記為C,1600-3100記作B,大于3100的則記為A。
4.2數據分析過程將數據代入weka.classifiers.trees.J48-C0.25-M2分類器進行處理,經過反復嘗試之后,最終選擇以下7個變量,其中以下6個作為自變量:num_hrefs、num_imgs、data_channel_is_lifestyle、data_channel_is_entertainment、data_channel_is_bus、is_weekend,shares作為因變量。采用10-foldcross-validation即十折交叉驗證的方式提高模型的準確性,結果如圖1所示。最后模型的準確度在35%左右,均方誤差為0.3左右,準確度并不高,可見新聞預測的復雜性。雖然如此,該模型也具有一定的解釋性河借鑒意義。可以看到圖1中,影響新聞閱讀量最重要的因素是是否為周末發表,其次是新聞的類型,新聞中圖片的數目對新聞的閱讀量也有很大的影響。
5結論與建議
由圖1發現,在工作日發表娛樂性的文章的閱讀量并不好,圖片多的非娛樂性新聞有利于提升閱讀量。值得注意的是在周末發表商業類的文章閱讀量較高。可見平臺在文章時不僅僅要考慮文章的質量,還要綜合考慮的時間,文章的題材等多種因素,以此來提高閱讀量。
參考文獻
[1]史安斌,廖蝶爾.“數據新聞學”的發展路徑與前景.2014.
[3]劉進.探究新技術對新聞傳播的影響.2017.
[5]吳林錫.現代信息技術大數據對新聞傳播的影響分析.2015.
作者:錢佳慧 單位:浙江省蕭山中學