亚洲第一视频区,亚洲国产一区在线观看,亚洲综合婷婷

本站小編為你精心準備了用戶日志的相關搜索研究參考范文，愿這些范文能點燃您思維的火花，激發您的寫作靈感。歡迎深入閱讀并收藏。

用戶日志的相關搜索研究

《信息技術雜志》2015年第二期

1.1基本思想搜索引擎查詢日志中的session是指某一用戶為了檢索到某個信息，而在一段時間內采取的連續搜索行為{Q1，Q2，Q3，…}。在以往平臺使用的相關搜索中，因為考慮到用戶使用的檢索條件多為關鍵字的形式(這里將查詢條件中，一個查詢詞組或者查詢字定義為一個關鍵字)，所以仍然使用的方式是關鍵字和文本信息相匹配的方法［4］。本文的背景是研究合適某集團業務使用的設計實現，該套系統不僅針對公眾開放，同時設計也需滿足內部客服員工的使用。對于集團內部的使用就對設計有了特殊要求，比如:客服員工在接受問詢的時候可能會很迅速地改變查詢目標，這就使得Session的劃分很難按照常規的時間方法來實現。Jansen，D．He在實驗中取得，當時間在10分鐘～15分鐘之間的時候，劃分Session，Session內包含的信息趨于穩定，這是一個合適的臨界取值區間。但這并不適用本文的狀況。根據實際情況嘗試將Ses-sion時間劃分碎片化，將所有日志信息分割為微小單位，建立得到相關搜索的擴展集合。在擴展集合的基礎上為用戶提夠檢索推薦［5］。

1.2模型描述首先要清楚初始數據的關聯關系，現在用一個查詢關系圖來描述這些待用關鍵字。關鍵字既有的關系:Rq=＜Wq，Eq＞是用來描述查詢內容。Wq是用戶生成的查詢關鍵字集合{w1，w2，w3，…}，Eq={e}是有向邊的集合，它代表關鍵字wi→wj的聯系。同時有v反映關鍵字wi→wj邊的關聯價值，也是對e的評價。根據Session的特點，已經知道在同一Session下看作是同一用戶的操作行為。用戶在發送檢索需求時，并不能兩到三次的檢索行動就一定達到目標需求。所以，這過程中，用戶可能發生多次對關鍵字的修正，將這形象的比作為一個沿著從零開始的時間鏈條單方向行為。最終建立的擴展集合是總結所有用戶發生的單方向鏈條，所以其他用戶在檢索一個目標時，可能是從其他用戶的非零時間切入，這就使得整體查詢關系圖變的交織復雜。這對建立可擴展集合很不利。本文需要發現并建立清晰明了的關鍵字關系，所以將復雜的檢索關系切割，讓它們成為唯一的關系對，而不是關系鏈條。因為本文是面向領域專一的集團業務，所以數據量的大小是一個可承受條件。本文將得到的唯一關系對表述為Relate=＜Query1，Query2＞，在描述這對關系的時候，需要加上一些必要的注釋因子，將這些注釋因子看作關系對的屬性，所以關系對可以表示為Relate=＜Query1＜Query2，Object＞＞，這里的Object是這對關系的注釋因子［6］。這個表達式是本文對唯一關系對進行處理和表達方式。圖1是表示相關詞對處理形式。

1.3擴展集合規則設立依據實際需要，需要設定一個對現實需求有幫助的Session時間劃分閾值［7］，在經過人們對集團用戶使用習慣的統計分析，設定15秒的閾值為所需要的合適Session時間劃分。在馬爾科夫模型中，在給定當前知識或信息的情況下，過去的歷史狀態對于預測將來狀態是無關的。現在有隨機變量的數列X1，X2，X3，…，這些變量的范圍，即他們所有可能取值的集合，Xn的值則是在時間n的狀態，在一定時間閾值內發生的狀態偏移也是連續的，Xn+1是在時間n+1的狀態，Xn+1不僅在時間上，在相關性上也是Xn的一個延續［8］。如此就知道了需要建立的可擴展集合的外部狀態，在每次獲取用戶的關鍵字同時，本文會獲取的信息包括SessionID，關鍵字發生時的時間Time(t)，用戶點擊的URL。設定了擴展集合的時間準入，即它的Session時間閾值。因為用戶日志的數據量巨大，必須對它繼續篩選。我們設定了一系列的度量值。或者wi''''∩wj''''不為空，顯示是用戶對關鍵字的替換修正。這兩種修正關系表示關鍵字間是有價值的。此時的μ標記初始設置為1。當μ＞0時，認為它符合我們數據的有意義要求，是有價值的。

1.4關鍵字權重設定在建立的擴展集合，不但需要使用模型的關鍵字對，同時需要每個關鍵字的屬性描述，既是前文講到的Object［10］。此時，要考慮的是如何反應這些關鍵字的關聯強弱，也是影響它反應給用戶的排名權重，本文將權重記為K。在Object屬性中有一個描述是heat。它的作用是標記用戶日志中發現該條數據的重復程度，在權重公式中記為h。反映檢索相關程度的權重公式:例如:在擴展集合中有＜q0，q1＞＜q0，q2＞，q1屬性heat為10，ε為5，q2屬性heat為15，ε為8。這個時候它們的權重就分別為1.7333和2.1333。權重數值較高的關鍵字選項q2在展示結果中會排列在q1前面。基于用戶日志的可擴展集合生成流程步驟如下:Step1在接收到用戶每一個檢索需求時，記錄下用戶提交的信息，封裝為一個對象。Step2將對象逐次入隊列操作，同時對隊列進行出隊列操作。在出隊列操作時要經過建立的中間字典篩選。在中間字典中要判斷有無該條ses-sionid數據，沒有新存入;有，則判斷λ，μ。Step3在判斷λ合法性時，不符合要求新存入中間字典，刪除原有中間字典中對應數據。全部符合要求的數據到擴展集合中，重復的改變原有數據的heat值，不重復，進行新存入集合操作。在屬性描述中的屬性heat和增加新數據時候，都要求作下標記留作以后入庫時候的增量更新使用。Step4在中間字典中，數據的合法性時間都很短，但它在內存中數據量是一個無限增長的過程，所以設定十分鐘對它進行一次清理操作，保持系統的輕巧性。在每天用戶操作較少時刻，進行定時操作，將數據分析存入文本和數據庫。

2實驗結果

為了驗證本文系統設計的有效性，我們將設計完成的系統和原有未經優化改進的集團檢索系統進行性能對比。本文沒有采用集團公司的語料進行測試，而是在網絡取網易，新浪和搜狐等知名中文門戶網站信息，抓取10000個文檔，建立索引測試。測評系統的性能標準，實驗為系統設定了兩個評價標準。一個是精確率(Precision)，另一個是召回率(Recall)。由于研究已表明一般用戶查看檢索結果時主要查看系統提供的前兩頁，以及本系統設計的特性，本實驗通過分析返回結果的前20條記錄來評價查準率。召回率實驗通過人工標記的辦法，對兩個系統分別測試，并進行比對比較。實驗選取10組相同的檢索詞條檢索返回結果評定精準率。由圖2可看得出原有的系統性能精確度平均值為0.575，而優化后的系統在該指標上的平均值為0.803。優化改進的系統比原有的系統在Precision指標提高了36.9%。從實驗結果可以看出指標Recall有很大提升，圖3顯示查全率從0.729提升到0.871，提升了19.4%。總體而言，經過本文的優化和改進，明顯的提高了原有使用系統的性能。

3結束語

在實驗過程中發現系統才開始啟用的時期存在一個問題，即用戶日志的數據量不足產生的影響。這將使本文的模型建立和運用無法得到最好的效果，此時可以結合局部文檔相關反饋技術的方法，在文檔集上建立相應的文檔擴展集合，根據一定的排名方法，將兩個擴展集合中的關鍵字，按照一定比例鏈接起來，提交給用戶做相關搜索使用［11］。在系統逐漸成熟時，可以考慮建立單一的模型，供用戶在使用中選取合適的相關推薦。本系統運行結果的相關達到率達到了一定精度，特別是本文建立在基于用戶日志上的擴展集在建立的過程中，有自己的篩選辦法。本文分析數據相關性程度達到需求時，就可以推斷這是一個穩定結果良好的相關搜索檢索方式。

作者：史杰施恒利楊輝單位：江蘇科技大學計算機科學與工程學院

在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

用戶日志的相關搜索研究范文

擴展閱讀

推薦期刊

數字化用戶

儀器儀表用戶

中國計算機用戶

精品推薦