在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 新聞網站自動生成系統設計實現范文

新聞網站自動生成系統設計實現范文

本站小編為你精心準備了新聞網站自動生成系統設計實現參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

新聞網站自動生成系統設計實現

【關鍵詞】網絡爬蟲;靜態網頁;新聞模板

1緒論

網絡媒體隨著網絡技術的發展迅速壯大,這使得人們能夠更快地獲取新聞信息。網絡媒體的新聞來源有來自于自己所采訪的新聞,也有許多引用自其他的網站。如何快速準確地采集新聞,更新新聞網站成為網絡媒體的一個重要問題。

2研究進展

早期的新聞采集大多靠人工去搜索和整理,直到網絡爬蟲技術的出現才使得人工得以解放,大大提高了新聞的采集速度。為了更加快速準確地抓取網頁,Cho[1]等人在爬蟲中引入了網頁抓取策略的概念。針對特定領域的新聞,王辛[2]等人基于站點分類的網頁抓取策略,設計了即時新聞采集分析系統。雖然現在有了不少爬蟲框架,陳歡[3]等人也利用Scrapy爬蟲框架設計了有效的網絡新聞爬蟲。但由于網絡中的網頁中存在著大量的與新聞無關的噪聲信息,如何去除噪聲,快速有效地找到有效的新聞信息近年被廣泛地研究。陳西安[4]提出了基于網頁文本標簽特征挖掘的網頁正文提取方法來解決噪聲問題。快速新聞網站生成系統的重要組成部分,除了快速采集新聞,還有新聞頁面模板。新聞頁面模板可以為采集到的新聞內容自動生成新聞頁面,這能大大加快新網網站內容更新速度。另一方面,可以借助新聞頁面模板,將新聞網頁轉換成靜態網頁,這能大大提高用戶訪問頁面的速度。王莉利[5]等人提出的將動靜技術相結合的思路則能夠既保留動態網站的交互性,又克服傳統網站訪問效率低、并發性差的問題。

3系統分析和設計

3.1系統功能模塊劃分

本文根據新聞網站采集和更新的相關功能需求,設計一個新聞網站自動生成系統,它包括“新聞采集管理”、“新聞管理”、“新聞模板管理”三部分。通過管理新聞網站網址及新聞內容的特殊標簽,讓爬蟲根據預先設置的參數迅速地采集新聞信息,并利用網頁模板自動生成新聞靜態網頁,從而達到新聞網站自動快速更新的效果。整個系統的功能模塊如圖1所示。

3.2新聞采集管理

“新聞采集管理”是對預備采集新聞的網站網址進行管理以及進行新聞搜索。為了更快速準確地去采集新聞信息,系統不會對網絡中的所有網站進行新聞信息爬取,而是有針對性地選擇主流的新聞網站作為新聞采集對象,建立新聞采集網址庫。在爬蟲自動抽取網站新聞信息時,主要抽取的信息包括新聞標題、新聞來源、新聞日期、新聞內容等。通常同一個網站內的新聞網頁都具有相同的格式,這些信息都由特定的HTML起止標簽容納。所以可以通過預先設置需要采集項目的HTML起止標簽讓爬蟲自動地對網頁進行分析,抓取其中有用的新聞信息。在設置HTML起止標簽時,需要考慮如下問題:(1)有些標簽是單標簽,此時需要擴大起止標簽的范圍,避免選擇單標簽;(2)在抓取新聞信息的過程中,需要注意網站頁面設置的編碼是UTF-8還是GB2312,這對于爬蟲分析網頁是十分重要的。設置好所有預備采集的新聞網站的采集參數后,就可以通過“搜索新聞”功能自動地運行爬蟲程序去抓取新聞內容,并將相關內容保存到本地服務器的數據庫中。由于爬蟲搜索網頁并存儲到本地服務器的過程通常會比較耗時,所以通常在新聞網站訪問量較少的夜間自動進行。為提高搜索新聞的速度,我們提出了一種批處理的方式進行搜索。批處理的搜索是利用多線程來實現的,以隊列的方式建立線程池,通過多線程來提高搜索的效率。因為網速等客觀原因,在搜索和分析新聞網站時需要的響應時間不同,系統會自動根據網路傳輸速度調節分析新聞網頁的延時。

3.3新聞管理

“新聞管理”是對采集到的新聞進行管理,它包括預覽、編輯、確認等操作。雖然在新聞采集階段,通過參數設置可以基本保證采集到的新聞信息具有較高的準確度,但也不可完全避免采集到的信息出錯的情況。所以,新聞編輯人員可以通過提供的預覽功能對采集到的新聞信息進行預覽和審核。當發現有些采集到的新聞信息中有部分內容不準確時,新聞編輯人員可以通過“編輯新聞”對其進行編輯加工。更多的出錯情況通常是因為有部分新聞網頁信息沒有遵循網站共同的格式而導致采集到的信息出錯,此時采集到的整條新聞內容信息都可能異常。不論何種情況,新聞編輯人員都可以通過“確認新聞”的功能來確定這條新聞是否可刊登。只有那些被標記為“允許刊登”的新聞信息條目才會自動生成靜態新聞網頁,并在網站上正式。對于確認過的新聞,系統每天定時在夜間維護時創建一個當天的新聞數據表,并將當天所有確認的新聞復制到此表中,這樣每天生成新聞網頁時可從這個數據表讀取要刊登的新聞。當數據量比較大時,這樣可以提高數據庫的訪問效率。當采集的新聞數據非常大時,我們也可以借助基于Hadoop框架的大數據存儲系統來管理新聞數據。

3.4新聞模板管理

“新聞模板管理”包括新聞模板的展示,以及靜態新聞網頁的生成。新聞網頁的內容雖然不同,但頁面的樣式、風格可以統一。所以我們事先設計好很多不同風格樣式的網頁模板供新聞編輯人員進行選擇。新聞編輯人員可以通過“新聞模板顯示”查看已有的網頁模板并進行選擇。選擇好合適的網頁模板后,通過“靜態網頁生成”功能可將編輯人員確認允許刊登的新聞數據轉化轉化成靜態網頁格式。為了節省時間,系統默認從當天確認刊登的新聞數據表中逐條讀取新聞數據,然后將新聞標題、新聞來源、新聞日期、新聞內容等字段的內容放置在新聞模板中對應標簽中。所有生成的靜態網頁保存在以對應日期命名的文件夾內。靜態網頁使得用戶訪問時大大減少由于讀寫數據庫而造成的效率低下問題。

4系統測試與結論

通過對多個網站的教育板塊進行新聞信息抓取,我們發現所設計的系統能夠快速準確地實現自動采集新聞、自動生成新聞網站的功能。但是,由于采集信息是根據新聞網頁中的特殊HTML標簽進行采集的,如果采集來源網頁樣式發生改變,則會抽取不出新聞內容,此時需要重新標注采集來源網址中的特殊HTML標簽。此外,對于新聞內容的合法性,目前主要通過人工校驗,今后可以考慮借助文本的語義分析等手段進行自動處理。

參考文獻

[2]王辛,黃穗,龍舜.即時定向新聞采集技術研究[J].計算機工程與科學,2012,34(09):180-183.

[3]陳歡,黃勃,劉文竹,高永彬,姜曉燕.基于Python的網絡新聞爬蟲與檢索[J].軟件導刊,2019(05):168-171

[4]陳西安.智能Web新聞文本采集方法研究[D].電子科技大學,2016.

[5]王莉利,高新成,王才智.基于動轉靜技術的新聞系統的設計與實現[J].陜西理工學院學報(自然科學版),2015,31(02):41-44.

[6]馬雷鳴.基于Hadoop的互聯網新聞閱讀系統的設計與實現[D].南京航空航天大學,2017.

作者:劉暉 石倩 單位:中南林業科技大學理學院

主站蜘蛛池模板: 亚洲永久中文字幕在线 | 日韩一级精品久久久久 | 国色天香社区视频免费 | 午夜小视频免费观看 | 妖艳的熟岳梅开二度 | 国产精品视频在 | 香蕉网在线视频 | 伊人婷婷涩六月丁香七月 | 亚洲 欧美 自拍 另类 | 免费观看激色视频网站(性色) | 九月丁香激情综合婷婷玉立 | 自拍视频网站 | 亚洲欧美一区二区三区久本道 | 九九电影理伦片免费看 | 激情网址在线观看 | 欧美自拍偷拍 | 亚洲国产精品成人精品软件 | a级亚洲片精品久久久久久久 | 男人天堂综合 | 欧洲在线| 男人的天堂天堂网 | 福利在线小视频 | 亚洲人成激情在线播放 | 伊人免费视频网 | 日韩精品视频免费观看 | 亚洲性一级理论片在线观看 | 手机看片日韩欧美 | 在线97 | 国产成人一区二区三区精品久久 | 精品免费 | 在线看片一区 | 在线免费自拍 | 精品欧美一区二区精品久久 | 午夜看片在线 | 成人性色生活片免费看爆迷你 | 天堂男人2021av | 亚洲福利一区二区精品秒拍 | 国产亚洲精品美女 | 欧美人成在线视频 | 成人久久久 | 国产亚洲欧美一区 |