在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 資料文庫 行文本統計去噪網頁文本抽取方法范文

行文本統計去噪網頁文本抽取方法范文

本站小編為你精心準備了行文本統計去噪網頁文本抽取方法參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

行文本統計去噪網頁文本抽取方法

隨著網絡技術的發展,尤其是Web2.0時代的到來,Web已成為一個巨大的知識寶庫,如何挖掘和理解Web中的海量數據,如何在Web海洋中快速找到人們所需的信息已成為當前研究的一個熱點。目前,互聯網中大部分信息都存儲在半結構化的網頁里,而網頁通常含有一些與正文信息無關的廣告信息、導航鏈接信息以及版權信息等,這些信息通常也被稱為噪聲信息。噪聲信息的存在是導致網頁正文提取準確率不高的一個重要原因,因此識別和清除網頁中存在的噪聲文本是提高網頁文本采集效果的一個關鍵技術。由于不同網站的模板和結構有所不同,實現一種有效、通用及實現簡單的網頁正文信息自動抽取技術顯得尤為重要。目前國內外學者對Web信息的抽取工作已經做了大量的研究,所提出的方法中主要包括基于模板的方法[1]、基于學習的方法[2-5]、基于網頁內容分塊的方法[6-7]和基于統計的方法[8-10]等。文獻[1]通過自動抽取同類網頁的Wrapper來對同類網頁進行自動抽取。文獻[2]通過將網頁文本按照其顯示屬性的不同進行分組,以顯示屬性值為基礎對Web頁面文本進行分類。文獻[3]將相似度高的網頁歸為一類,依據每類網頁訓練得到的網頁模板對未知網頁的內容進行提取,該方法適用于網頁結構相似度較高的網絡文獻的提取,而無法適用于結構不同的Web網頁的信息提取。文獻[4-5]提出利用某些學習方法來識別廣告冗余及不相關信息,但是這些技術都不是自動化的操作,需要大量手工標記訓練數據和領域知識。文獻[6]通過計算頁面集中每個屬性的信息熵,依據熵值將一個網頁劃分為內容塊和噪聲塊,該方法雖然可以發現和區分出同一個站點中頁面的內容信息和噪聲信息,但對不同的模板的不同網站需要設置不同的最優閾值。文獻[7]將HTML網頁分為不同的文本內容塊,然后通過分析塊重要度和塊特征來辨別出含有正文的內容塊,在識別噪聲信息如導航欄、網站目錄等信息時采用通過敏感詞過濾及廣告地址過濾等方法,具有一定的局限性。文獻[8-9]所提出的方法實現簡單、通用性好,但存在以下缺點:(1)只考慮了table節點;(2)當某些網頁所包含的正文信息很短時,因為信息量較少,所包含的正文節點往往會被過濾掉。文獻[10]通過統計中文句號確定部分正文信息,然后根據正文信息在結構上的相似性確定其他正文信息的內容。該方法在某些正文信息較少的網頁中,可能會將噪聲判定為代表結構的正文信息,從而無法提取出真正的正文。本文在前人工作的基礎上,結合對HTML網頁性質的觀察和分析,實現了一種基于DOM樹及行文本統計去噪的網頁文本抽取方法,該方法克服了文獻[8-10]中所提出方法的不足,不僅可以提取正文文本較多的網頁正文,同時還能夠較好地提取正文內容較少的網頁正文。為了驗證本文提出方法的有效性,文章對來源不同的10個中英文網站的2000個新聞網頁進行了抽取實驗,實驗結果表明本文提出的方法確實提升了網頁信息提取的準確度,并能適用于不同結構網站的網頁信息的全自動提取。

1網頁標準化及DOM樹生成

目前互聯網中大多數網頁仍然使用HTML格式,HTML語言是一種標識語言(MarkupLan-guage),它定義了一套標簽來刻畫網頁顯示時的頁面布局。在HTML格式的網頁中,存在標簽不匹配、嵌套混亂及標簽格式不規范等情況,如有〈title〉標簽,而沒有對應的〈/title〉標簽,這種不規范有時不會對網頁的正常顯示有影響,但不便于正文信息的抽取,為此首先應對HTML代碼進行預處理,將其標準化。本文采用W3C組織推薦的工具集HT-MLTidy[11]來將書寫不規范的HTML文檔轉換成格式良好的XHTML文檔(XML的子集)。對HT-ML網頁規范化的過程主要包括如下步驟:(1)統一網頁的編碼形式,將編碼為GBK、GB2312、UTF-8等不同格式的網頁統一轉換成UTF-8字符集編碼格式;(2)使用開源工具HTMLTidy轉化網頁為標準化的XHTML文檔;(3)用正則表達式替換可能引起錯誤和干擾的字符,如將HTML源碼中的“&nbsp”以空串替換,將HTML標簽格式〈strong〉〈/strong〉、〈font〉〈/font〉、〈p〉〈/p〉以空串替換等;(4)通過在網頁的頭部添加標準的XML聲明〈?xmlversion=“1.0”encoding=“UTF-8”〉,將標準化后的HTML文檔轉化為XML文件;(5)用C++的Tinyxml庫把標準化后的XML網頁源碼解析成一棵DOM樹;(6)將DOM(documentobjectmodel)樹中與正文提取無關的節點信息刪除,這些節點包括style、script、img、〈!--〉、iframe、object、meta、applet、link、doc等。其中DOM是一種以面向對象方式描述的文檔模型,它定義了表示和修改文檔所需的對象,這些對象的行為和屬性以及這些對象之間的關系。DOM樹將整個頁面映射為一個由層次節點組成的樹形結構,其典型結構如圖1所示。

2網頁正文內容提取

2.1基于標點符號統計提取正文內容通過對網頁源碼的分析發現,網頁中包含文字的節點通常分為兩類:一類是包含有標點符號的文字節點,這類節點大多數是正文節點和某些版權信息節點;另一類是不包含標點符號的文字節點,這類節點通常是導航或廣告鏈接節點。文獻[10]統計發現約有96%的中文句號出現在網頁正文中,是所有中文標點符號中分布最多的。該文將句號作為網頁正文區別于其他部分的特征。考慮到中文句號對英文網頁的不適用性,以及在某些網頁的正文中只有感嘆號而無句號等其他情況,本文將中英文句號、逗號、感嘆號、中括號等標點符號作為區分網頁正文與其他部分的特征。設文本節點element={c1,c2,…,cn},ci(i=1,…,n)為組成該文本節點的字符,這些字符包括中文漢字、英文字母和中英文標點。為了體現標點符號特征明顯的文本為正文內容這一思想,通常是定義滿足條件文本節點element的標點符號個數文本節點element的所有字符總數>p的文本節點內容為網頁正文內容,這樣處理將使得閾值的設置相當困難。由于不同網頁的正文內容差別很大,有些正文的標點符號多,有些正文的標點符號少,有些正文雖然很長,但是一共就幾個句子,所以標點符號的比值非常小,此時如果閾值p取得太大,則無法將正文取出。反之為了能夠將長短不同的網頁的正文都能取出,將閾值p設定得太小,就會將更多的噪聲選擇進來。考慮到網頁正文部分文字較多而標點符號相對較少的特點,本文的處理方法是將標點符號比值落在區間[0,p]之間的節點文本取出作為網頁正文內容,這樣做可以確保所有網頁的正文都能夠被提取出來,不會被噪聲所淹沒。本文隨機提取了10個不同網站的2000篇網頁,設定p值在0.01到0.9之間(間隔刻度為0.01)來提取正文,結果顯示當p值設定在0.3以下時能夠對所有網頁全部提取正文。同時由于網頁中某些版權等信息也有可能是比較長的文本信息,并且也包含一定的標點符號,如騰訊網中的噪聲文本“如果你對新聞頻道有任何意見或建議,請到交流平臺反饋。”和新浪網中的噪聲文本“┊Copyright?1996-2011SINACorporation,AllRightsReserved新浪公司”中均含有一定比例的標點符號,這些噪聲數據也會被同時提取出來作為正文內容。通過對網頁的詳細分析發現,相同網站的網頁的噪聲信息是基本相同的,如具有相同的廣告信息,具有相同的版權信息等,同時這些信息一般均會出現在不同行上。基于這個特點,我們提出在初始構建DOM樹并提取含有部分噪聲的正文內容的基礎上,使用MD5編碼技術統計行文本信息,將視為噪聲的行文本從已提取的正文中刪除。

2.2行文本統計去噪信息摘要MD(messagedigest)是根據公開的MD5算法對原信息進行數學變換后得到的一個128位的特征碼,依據特征碼的惟一性和不可逆性,MD5編碼值可以惟一地代表原信息的特征。行文本統計去噪的過程是,首先將節2.1提取出的正文內容依據換行標志‘\n’劃分為行文本集,然后計算每個行文本的MD5編碼,并維持一個行編碼表,對正文的每一行進行統計并檢索MD5編碼表,當行文本頻繁出現時,判定該行文本為噪聲信息,將其從正文部分刪除。行文本統計去噪算法的詳細描述如下:(1)讀入一篇含有噪聲的網頁正文文本Text;(2)按照換行標志‘/n’劃分網頁正文文本Text得到行文本集D={t1,t2,…,tn},其中ti(i=1,2,…,n)為行文本;(3)fori=1tondo(4)計算ti的MD5編碼并查找MD5編碼表;(5)如果編碼表為空,則在編碼表中插入一條新記錄,該記錄的LC值設為1;(6)如果編碼表不空且找到ti的相同編碼值,則將編碼表中該記錄的LC值加1;(7)判斷ti的LC值,如果滿足LC≤int1+RC()L,則保留ti,否則認為ti是噪聲,將ti從當前網頁正文Text中刪除;(8)endfor(9)成功處理網頁的數量RC加1,轉入(1)繼續下一篇網頁正文的處理。算法中的參數LC代表某文本行總共出現的次數,RC代表當前已經成功處理多少篇文章,L表示每處理多少篇文章允許行文本噪聲增加一行的范圍。通常隨著處理新聞網頁數量的增加,部分行文本重復的概率就會增加,因此需要設定一定的范圍來判定該行文本是否是噪聲。本文設置L為50,即處理文章個數在50篇以內,允許判定為噪聲的行文本重復次數為2,當處理文章個數為100時,允許判定為噪聲的行文本重復次數為3,依此類推。算法中隨著處理文章的增多,行文本記錄在數據庫中會急劇增加,這會導致查詢數據庫的效率降低。事實上,某些屬于正文的行文本的重復出現次數會很低,這些行文本應該需要從行文本數據庫中刪除。本文的處理方法是當行文本的重復次數小于成功處理總得文章個數的1%時,即LC≤RC100時,將該類行文本記錄從行文本數據庫中刪除。這樣隨著采集到的新聞數量的增多,行文本數據庫的大小基本維持在一個恒定的大小。為了驗證本文算法思想的正確性,作者對10個網站均分別自動抽取1萬個網頁的正文,實驗結果顯示同類網站的廣告鏈接信息、版權信息等出現的次數比較頻繁。表1展示了部分網站中出現的頻繁度行文本信息。依據噪聲數據高頻繁度出現的特點可以去除很多文本信息中的干擾因素,獲取準確率較高的正文內容。

3實驗結果

本文對來自主流和非主流及結構完全不同的9個中文網站和一個英文網站中一共抽取了2000個網頁作為測試數據,采用基于標點符號統計及結合行文本統計去噪的算法對這2000個網頁的正文進行提取,提取結果如表2所示。從表2統計結果可以看出,本文提出的方法在不同網站的新聞網頁上抽取的結果最高為100%,最低達到93%,平均準確率達到96.8%。通過分析發現,對于某些廣告噪聲較多的網站如news.sina.com.cn,new.qq.com等,本文方法的優勢更為明顯。由于本文提取的新聞網頁全部來自不同的網站,并且所提取的準確率差別不大,這證明本文提出的方法具有很強的通用性,能夠適用于不同結構的網站新聞文本信息的提取。通過對抽取出錯的網頁進行分析發現,抽取錯誤的主要因素為以下幾點:(1)〈span〉、〈h〉等修飾標簽過多的網站提取結果會丟失部分正文,原因是所使用的C++的TidyHt-ml庫在規范html源碼的時候存在著一些不足,它在處理大塊有著相同標簽的源碼的時候會誤刪一部分標簽;(2)由于基于行文本統計的去噪需要一個學習的過程,所以在初始的幾個網頁處理效果不明顯,會包含一些錯誤的鏈接信息。圖2為采集到的來自不同網站新聞網頁的語料數據庫的部分截圖。

4總結

本文在改進基于標點符號統計的網頁文本信息抽取方法的基礎上,引入了基于行文本統計去噪的方法,得到了效果較好的網頁文本信息提取結果。從來自不同網站的中英文新聞網頁的提取結果看,所提出的方法具有較高的準確率,并且實現方法簡單,具有很強的通用性。該方法已經被用于作者研究的網絡輿情分析原型系統的新聞網頁語料的采集系統中,進一步的研究工作是對采集新聞相對應的評論做進一步的提取。

主站蜘蛛池模板: 精品久久综合一区二区 | 中文国产成人精品久久下载 | 香蕉久热 | 久久网站免费 | 国产福利专区精品视频 | 伊人网99| 激情网站网址 | 国产四虎精品 | 国产成人精品一区二区三区… | 中文国产成人精品久久下载 | 伊人网综合 | 欧美成人性色生活片免费在线观看 | 在线观看网址入口2020国产 | 免费视频久久 | 亚洲第一区在线观看 | 国产精品一二三区 | 中文字幕国产 | 国产精选自拍 | 毛片资源网 | 精品在线免费观看视频 | 伊人情人 | 欧美成人黑人xx视频免费观看 | 综合五月网| 日本免费二区三区久久 | 久草免费色站 | 自拍网在线 | 国产精品一区二区三区久久 | 久久亚洲伊人成综合人影院 | 国产精品v欧美精品∨日韩 国产黄色免费看 | 日本a级精品一区二区三区 欧洲精品在线观看 | 国产精品一区二区在线播放 | 国色天香社区视频免费高清在线观看 | 亚洲精品国产成人7777 | 亚洲成人黄色 | 亚洲 成人 欧美 自拍 | 久久精品大片 | 一级片免费网址 | 在线视频精品免费 | 全国男人天堂网 | 国产精品视频免费的 | 午夜高清福利 |