本站小編為你精心準備了網絡信息檢索參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1網絡信息檢索簡介
隨著信息技術的飛速發展,信息已成為全社會的重要資源,對信息的占有程度及信息處理水平的先進程度已成為衡量一個國家或地區現代化程度的重要標志,而網絡上豐富的信息在更大程度上改變了人們的工作和生活的方式。Internet是當今世界上規模最大、覆蓋面最廣、信息資源最豐富、發展最為迅速的信息網絡,基于Internet的網絡信息檢索的研究,無論對研究人員還是一般用戶來說,都有著很強的現實性和實用性。
1.1信息檢索概念
信息檢索是指將信息按一定的方式組織和存儲起來,并根據信息用戶的信息需求查找所需信息的過程和技術。人們獲取信息源的方式主要有:①傳統的信息檢索方法,通過人工查詢在圖書館等提供文獻的機構進行文獻的查詢和獲取活動;②聯機信息檢索相對于前者來說具有實時性、完整性、共享性、廣泛性等優點;③網絡信息檢索是指通過網絡信息檢索工具檢索存在于Internet信息空間中各種類型的網絡信息資源。
1.2網絡信息檢索的原理
網絡信息檢索工具是網絡信息檢索技術的實物體現。目前,常用的網絡信息檢索模型有布爾邏輯模型、模糊邏輯模型和概率模型等幾種方式。
①布爾邏輯模型這是一種簡單而常用的嚴格匹配模型。用戶可以根據檢索項在文檔中的布爾邏輯關系提交查詢,搜索工具根據事先建立的倒排文檔結構確定查詢結果。標準的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關,要么與查詢無關。利用這種模型進行查詢,其查詢結果一般沒有按照內容的相關特性排序。
②模糊邏輯模型它在查詢結果處理中引進了模糊邏輯比較,并且按照相關的優先次序排列查詢結果,這樣就可以克服布爾邏輯模型信息查詢結果的無序性。
③概率模型它是基于貝葉斯概率原理而提出的,根據詞條、文檔間的內在聯系,利用詞條間和詞條與文檔間的概率相依性來進行信息檢索。
2搜索引擎
搜索引擎是目前使用最為頻繁的一種網絡信息檢索工具。與其他工具相比,它的檢全率和檢準率都比較高,具有很強的使用價值和廣泛的應用前景。
2.1搜索引擎的工作原理
作為一種www站點資源和其它網絡資源進行組織和檢索的檢索工具,搜索引擎的檢索機制一般包括數據采集和標引機制、數據組織機制和用戶檢索機制,基本構成如圖1所示。
①數據采集標引機制按照一定規律和方式對網絡上www站點進行搜索,并將搜索到的www頁面信息存入搜索引擎的臨時數據庫中。
②數據組織據組織機制的主要功能是對www頁面信息進行整理以形成規范的頁面索引,并建立相應的索引數據庫。
③索引數據庫是用戶進行檢索的基礎,它的數據質量直接影響到檢索效果,而搜索引擎的數據采集標和標引機制又是決定數據庫質量的關鍵技術。
④用戶檢索機制幫助用戶以一定方式檢索引擎的索引數據庫,以獲得符合用戶需要的www站點或頁面。
2.2搜索引擎的分類
按照用戶查找的途徑劃分,可將搜索引擎分為如下幾種:
①基于關鍵詞的搜索引擎主要通過使用自動采集軟件來對網絡上的數據進行采集標引,建立成索引數據庫。它主要采用自動搜索和標引方式來建立和維護其索引數據庫,供用戶查詢使用。
②基于分類目錄的搜索引擎一般依賴于按照某種分類標準進行人工編排的分類體系。
③聯合式搜索引擎是基于關鍵詞的搜索引擎的另外一種表現形式,是后者與基于類目的搜索引擎的一種結合。
2.3搜索引擎的功能
目前Internet上的搜索引擎種類繁多,雖然各種搜索引擎都有自己的不同信息采集標引機制,在其他一些方面各具特色,但其基本功能卻是相似的。
①布爾邏輯檢索這一功能使得用戶能使用AND、OR和NOT來進行關鍵詞的搭配檢索。
②模糊檢索在用戶進行檢索的過程中,系統會對跟用戶提供的關鍵詞相似的詞語進行檢索,并返回包含關鍵詞或是這些相似詞的檢索結果。
③截詞檢索這種檢索形式利用檢索詞的某一部分來進行檢索。在搜索引擎中,用戶提供包含“?”或是“*”通配符的檢索項來進行檢索。
④限定詞檢索這種檢索加減號檢索,它用來規定檢索項中必須出現或是必須不出現某些關鍵詞。
3網絡信息檢索的局限
用戶在查找網絡信息資源時,不可避免的用到網絡信息檢索工具。檢索工具的優劣很大程度的影響了用戶的檢索效率。雖然網絡信息檢索工具在最近幾年有了長足的發展,但是到現在網絡信息檢索仍然存在著這樣或是那樣的局限。
3.1文本信息檢索的局限
①網絡信息標引的準確度不夠檢索工具對網絡信息資源的標引一般都存在著柵引準確度不夠的問題,檢索工具經常會在返回大量垃圾信息的同時丟失有用信息。當用戶要進行特定的文獻檢索時,有時還會發現現存的檢索工具無濟于事,檢索出來的數據完全被無用信息所覆蓋。如想要通過搜索引擎查詢清朝雍正年間李衛任浙江巡撫的資料,你只能夠查到大量《李衛當官》之類無用信息。
②搜索引擎的查全率不高由于互聯網上的信息資源以爆炸性的速度不斷增長,搜索引擎采集數據的速度遠遠落后于信息資源的增長速度。單個搜索引擎的數據庫所收集的Web頁面大大不足,就是所有的搜索引擎所儲存的數據也只占全球Web頁面的50%強。由于這方面的原因,搜索引擎的檢全率會無可避免的被降低。
③搜索引擎的查準率不高一是返回的信息過多,這是現有搜索引擎檢索信息的普遍現象;二是返回重復的信息,搜索引擎的檢索結果中還經常重復出現同一信息源的不同部分,甚至出現不同信息源的相同內容信息。
④查詢方式有限目前大多數搜索引擎的查詢方法比較單一,一般只提供分類查詢方式和關鍵詞查詢方式。這樣,一方面檢索時不能從文獻的多個方面對檢索提問進行限制,只能就某一關鍵詞或概念進行籠統的檢索;另一方面,由于查詢結果完全依賴于用戶所給出的關鍵詞,而大多數用戶對他們檢索的領域或索引數據庫的關鍵詞不太了解,因此使最后的查詢結果相關性很差,往往是輸入一個檢索式,得到一大堆網址,但其中大部分是冗余信息。
⑤檢索對象的數據結構單一由于現在大多數網站使用的是傳統的關系數據庫對信息進行組織和存儲,因此其使用的搜索引擎也是基于關系數據庫的,這種傳統的關系數據庫非常擅長處理結構化的數據,但其對于非結構化的數據的處理能力則很弱。
⑥交互性不夠當前的搜索引擎與用戶的交互性不夠,與用戶間缺乏足夠的協作,不了解用戶的情況,不記錄用戶提交的查詢任務,不能處理用戶的反饋信息,因而不能與用戶進行足夠好的交互以提高檢索效率。
3.2多媒體信息檢索的局限
到現在為止,雖然單獨針對圖像、視頻、聲音等媒體的檢索技術已經出現,但還沒有任何搜索引擎能夠充分解決多媒體信息的檢索,其主要表現在以下幾個方面:
①檢索效果不夠理想目前,幾乎所有的多媒體搜索引擎在多媒體信息的查準率方面都不能達到令人滿意的程度,用戶將在返回的幾百個甚至上千個圖像中篩選需要的那一幅。這是很費時和令人難以忍受的,而且有時你所用的搜索引擎根本檢不出你想要的東西。歸其原因,一方面是在于查詢方式的單一,另一方面在于對圖像的標引深度不夠,這就要求完善圖像檢索和索引機制。
②用戶查詢接口單一理想的多媒體檢索系統中,人是主動的,用戶的查詢接口能提供豐富的交互能力,且直觀易用,使用戶能夠在主動交互過程中通過調整檢索參數,表達對圖像的語義感知,最終獲取滿意的結果。這就涉及到如何把用戶的提問轉換為可以執行檢索的特征矢量、交互方式的設計,如何獲取用戶的內容感知等問題。目前的多媒體搜索引擎用戶查詢接口比較單一,大多只提供描述查詢接口,即關鍵詞提問框。
③圖像特征信息的表示與檢索不夠完善基于內容的圖像檢索,實質上就是進行圖像特征相似度的比較,但目前這一技術還存在許多問題。
④信息的自動加工與人工標引不夠目前文本搜索引擎在這方面的發展正日趨完善,而多媒體搜索引擎的研究剛剛起步,尤其是圖像信息的加工,圖像不同于文本,文本自身就能說明要講的內容,而圖像內容卻需要加入人的理解和描述,人工干預雖能提高查準率,但一方面能被人工標引的是極其有限的;另一方面由于人工標引勞動強度大而限制了檢索的范圍,如何對圖像信息進行快速標引和準確分類是急待解決的主要問題。
另外,目前基于內容的檢索技術多應用于對靜態圖像的檢索,對動態圖像的檢索還沒有多少行之有效的方法。但隨著寬帶網絡的逐步實現,動態多媒體信息在網絡中將會越來越多。
【參考文獻】
1張杰.淺論網絡信息檢索.江西圖書館學刊,2002年增刊.
2董慧.網絡信息資源開發與利用.武漢:武漢大學出版社,2001.
3盧小賓.信息檢索.北京:科學出版社,2003.
4李勇先,鄭文良.人工智能在網絡信息檢索中的應用.圖書館建設,2003(4),4:81~83.
5焦玉英,符紹宏,何紹華.信息檢索.武漢:武漢大學出版社,2001.