本站小編為你精心準備了文本挖掘的案例推理系統研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《情報科學雜志》2015年第十一期
1引言
基于案例推理(Case-basedReasoning,CBR)是近年來人工智能領域一項重要的問題求解與學習相結合的推理技術,它是基于過去的實際經驗或經歷而對當前問題進行處理的一種方法。1987年以來,國際上每年都會召開CBR研討會(ICCBR,EC⁃CBR),極大促進了CBR理論與應用的發展。近年來,關于CBR的研究主要集中在CBR與其他人工智能方法的結合與比較,CBR作為解釋機制的算法研究,CBR案例改編機制研究,分布式的案例推理與學習研究等等【1-2】,目前已在故障處理、疾病診治、決策支持、案件審理等領域取得了較好的應用效果【3】。然而,傳統CBR研究所關注的案例提取,重用,改編與保存的推理循環過程只是其發展的一方面,研究卻很少關注使用系統的用戶,而在一定層面上用戶是否積極參與決定了CBR系統的成功與否。正因缺乏與用戶交互等原因,當前許多CBR系統仍面臨著案例庫案例過時,案例表示缺乏可擴展性,案例數量停滯無增長,系統缺乏用戶參與協作等問題【4】。而Web2.0作為一個以多數人取代少數人智情報科學第33卷第11期2015年11月慧與貢獻的平臺,更注重用戶與Web間的交互,用戶既是信息的瀏覽者又是信息的創建者,這在一定程度上與CBR作為人機交互系統的理念不謀而合,同時對于含有大量文本的CBR系統案例庫,需要一定的技術輔助其發現文本中隱藏的趨勢或信息。鑒于此,本文擬從Web2.0與文本挖掘的角度進行研究,該方向的研究目前相對薄弱,相關的論述也較少。國外學者WuHe,TawnyaMeans等人指出了傳統的單獨式CBR系統設計成本高,拓展性差等問題,闡述了基于Web的CBR應用所具有的優勢并將其稱作CBR2.0【4】;QiangYang與JingWu認為案例結構應越簡單越好,強調通過聚類劃分案例,對于文本案例也可根據附加在案例上的屬性值來進行分類【5】。截止2013年6月20日,筆者在中國知網(CNKI)中以“案例推理”與“Web2.0”、“文本挖掘”等組合為關鍵字共檢索出相關文獻3篇。其中華南理工大學的李峰針對Web2.0環境下自底而上的知識形成過程,提出了基于案例的知識管理系統【6】;合肥工業大學的戴奇波、倪志偉等人設計了一種基于動態數據流挖掘的案例推理模型【7】。總體來講現有文獻大多屬于理論層面的構想并沒有深入探討,還未形成完善的體系。本文在以往研究的基礎上,以CBR作為人機交互系統為著眼點,運用Web2.0與文本挖掘技術構建層次化的交互式系統模型,以解決傳統CBR忽略“用戶”作用的缺陷,并剖析了其在系統中的具體應用與實現,以期拓寬CBR研究的思路與方向。
2基于Web2.0與文本挖掘的CBR系統
2.1CBR中引入Web2.0與文本挖掘的必要性傳統CBR系統案例庫中的知識往往由專家給出,或者由以往經驗得出,案例的更新是“被動地”,即只有當用戶有求解需求時才會使用。如此被動的方式往往使案例庫知識量少,新案例獲取困難,并且由于長期得不到更新,成為靜態、過時的案例庫,極大影響解決問題的深度與廣度。同時,傳統CBR系統缺乏用戶間交流協作的平臺,使用系統的最大目的僅是單純尋找能解決當前問題的最相關案例,用戶無法討論他們讀過的案例,也無法對案例做補充說明,案例庫資源得不到充分地增值與利用。從知識管理的角度來講,對于行家里手的工作經驗,由于缺乏可以“主動”貢獻的平臺而未能留下相對完整的解決方案記憶,其他用戶碰到類似問題只能重頭再來。伴隨著Web2.0的迅速發展與普及應用,在CBR系統中引入Web2.0技術,增加系統與用戶交流的接口,用戶從被動的接受者變成主動的內容貢獻者,為用戶提供一個學習平臺,可以評論案例,豐富案例庫,創建案例更加自主,使案例庫內容呈現出開放與協同創作的特點。例如,可以用Wiki平臺幫助系統拓寬案例來源,還可通過Blog構建網絡社區評論案例并為案例增加注釋【8】。引入Web2.0在系統中構建不同的交流圈子,使用戶積極參與到系統互動共享中,同時也大大降低了系統解決問題的成本。用戶的經驗和感知在一定程度上決定了案例的質量,而用戶參與度與交互性的加強反過來促進案例質量的提高。研究表明大約80%的組織信息都包含在文本文檔中【9】,案例庫中同樣含有大量的文本信息。文本挖掘技術即嘗試從無結構的文本中抽取有用的信息和知識,而CBR系統關注于如何用這些知識來解決問題,兩者結合相互補充循序漸進使系統更具靈活性。
2.2基于Web2.0與文本挖掘的CBR系統CBR作為一個社會技術系統,環境、用戶等因素同樣被考慮進來,激勵用戶討論他們讀過的案例,分享他們的想法與感受,回答案例中存在的問題。本文提出的基于Web2.0與文本挖掘的CBR系統框架如圖1所示。對比傳統CBR系統,基于Web2.0與文本挖掘的CBR系統在案例的與更新,檢索以及知識的呈現方面有很大的不同與改進。在結構上,系統采用瀏覽器/服務器模式,減少用戶安裝和使用系統的復雜度,同時也消除了時間和地點的約束。用戶通過瀏覽器完成案例的、檢索與評價而無需了解HTML以及其他復雜軟件,還可登錄Wiki平臺分享經驗并通過Wiki頁面對案例添加標簽,利用瀏覽器端的RSS閱讀器訂閱感興趣的案例并獲得及時提醒。用戶案例后,并不是直接存入案例庫,而是先保存在臨時案例庫中,再通過臨時案例庫更新案例庫。這樣一方面防止案例數據急劇增大以及部分用戶惡意添加無效內容,減少數據冗余,另一方面在解決問題時,先檢索案例庫,無合理匹配后再檢索臨時案例庫,提高了檢索效率與有效性。針對案例匹配的相似度算法,國內外學者已有很多詳細的研究成果【10-11】,然而引入Web2.0后,系統通過檢索界面可利用Ajax技術與用戶交互【12】,通過向用戶提問與提示的方式縮小檢索范圍,即在案例檢索前由用戶選取必須或者優先滿足的條件,得到一個初始案例集合,之后再與目標案例逐一進行相似度對比。算法步驟如下:Step1:根據用戶需求,確定目標案例C0的屬性等;Step2:引導用戶選取案例中優先或必須滿足的屬性或子過程,檢索案例庫,得到滿足約束條件的案例初始集合Ci,其中i為初始集合中案例個數;Step3:利用相似度算法,逐一計算目標案例C0與初始集合Ci中每個案例的相似度S1,S2,S3……Si;Step4:對于給定的閾值λ,若Sm>λ(其中m=1,2,……i),則將Sm對應案例作為最佳匹配反饋給用戶。引入Web2.0與文本挖掘技術后,系統將不再僅僅是案例推理系統,而是一個知識管理系統,一個信息共享與協作平臺,可以對實時、動態數據進行一定的處理,系統處于動態變化的過程中。
3Web2.0與文本挖掘在CBR系統中的應用與實現
3.1利用標簽實現案例知識的標引與組織標簽是對內容個人理解基礎上的標注,它不需要遵循固定的模式與標準,是一種靈活、自由而有序的信息分類技術,可以從多個維度來揭示信息內容。在傳統案例表達方式的基礎上,結合Web2.0去中心化,強調用戶參與的特征,系統允許用戶為其使用的案例設置標簽,使用戶之間,案例內容之間產生新的鏈接與聯系,如圖2所示。標簽使得用戶間建立社會網絡關系,案例間建立概念關系,反過來用戶標簽的使用習慣和分布特征也形成了標簽間潛在的語義聯系。具體來講,第一,對于系統反饋的案例用戶可按照自身理解添加標簽,每個案例能被添加多個標簽。用戶擁有自己的系統賬戶,其中可設置標簽列表,包含其曾經添加過的所有標簽,選擇其中某個標簽即可獲得用戶使用該標簽標注的案例鏈接,標簽幫助用戶分門別類地管理對自己有用的案例資源。第二,用戶可為多個案例添加標簽,從而建立了用戶與案例間的關聯,如圖2實線所示。同一案例可被不同的標簽標注,同一標簽也可標注不同的案例,不同的案例,不同的用戶之間便關聯起來,如圖2虛線所示。系統用戶的標簽列表可以被其他用戶查看,其他用戶也可使用相同的標簽。對案例添加標簽成為一種基于共享的協作,更有價值的案例信息總是被更多用戶標注,使用頻率越高的標簽對案例內容的概括也越準確。第三,用戶添加的標簽是對案例特征的描述,可作為案例檢索時的關鍵詞。在檢索過程中,一方面可以給出該標簽下的相關案例,另一方面還可以向用戶提示與其相關的其他標簽【6】。案例、標簽、用戶間的關系在數據庫中可以通過建立二維關系表實現,如圖3所示。其中標簽表引用用戶表的UserID字段作為外鍵,案例表引用標簽表的TagID字段作為外鍵。除了傳統標簽外,系統還可引入標簽云作為案例內容的額外解釋。標簽云能使文本案例以快速、可視化的形式展現出來,當系統反饋給用戶一個備選案例時,標簽云給用戶對于案例內容更直觀地感知與理解。有時,用戶甚至可以直接使用標簽云來對比兩個相似案例間的不同【13】。標簽云可以通過在系統中集成Wordle、TagCloud與Imagechef等工具實現。
3.2利用Wiki構建案例知識協作與共享平臺在一定程度上,案例庫內存儲的案例數量決定了用其進行推理決策的水平與效果,所以系統應提供相應機制允許用戶主動豐富案例知識。然而一段經驗,一個案例解決方案的形成可能需要多個用戶一段時間的實踐探索,同時也需要一個平臺去積累沉淀,并將這些凌亂的多用戶信息系統地顯示出來。作為Web2.0應用之一的Wiki是支持社群協作的開放式自組織工具【14】,系統可利用Wiki構建案例知識協作與共享平臺。CBR系統中的Wiki平臺如圖4所示,每個Wiki頁面可存放一個完整案例或尚未成熟的案例問題描述、解決方案等組成要素。用戶登錄平臺后,通過創建新Wiki頁面來呈現自己過去的實踐經驗或經歷,其他用戶可對其觀點進行補充并提出不同意見,通過彼此交流協作,實現案例知識融合。Wiki頁面的經驗片段不斷地被反饋、修改與完善,并通過Wiki的版本控制剔除惡意篡改的內容,能夠形成完整合理的解決方案時,再由系統管理人員將其引入案例庫或對相應案例進行更新。更新后的案例又通過Wiki平臺反饋給用戶,形成一個知識的動態循環。用戶的貢獻越多,其擁有的權限就可以越大,系統變得更具有吸引力來激勵其作出更多貢獻,同時吸引新用戶的加入。這樣的過程使案例數量不斷“主動地”增加,同時促進用戶間協作共享并且改善系統的使用體驗。用戶在編輯頁面內容時可添加超鏈接標記,系統自動尋找已定義的概念并添加相應案例條目間的鏈接,案例之間或案例內容各組成要素間的關系便可依靠頁面間的超鏈接標記來實現。用戶在閱讀某個Wiki頁面時,通過超鏈接跳轉至其他頁面以便了解更多感興趣的概念,頁面的鏈接目標可以尚未存在,通過點選鏈接創建這些頁面,從而使系統得以增長。Wiki引擎是整個平臺的核心,根據用戶的請求信息,Wiki引擎從案例庫存儲模塊讀取相應數據,它為用戶編輯和瀏覽Wiki頁面提供Web界面,將用戶標記的頁面進行處理,系統內多個內容重復的頁面可被匯聚于其中某個頁面,相應鏈接結構也隨之改變,從而實現案例間的跳轉導航。從案例優化的角度,系統反饋給用戶的案例通過Wiki展現出來,用戶可對其作出評價,即可在Wi⁃ki上設置案例評價模塊,用戶對案例的滿意度進行打分并且標注合理的標簽,給出簡短評注【15】。久而久之,用戶的評價數據可作為案例匹配檢索以及案例庫更新優化的判定依據之一。具體來說,可在案例庫中為每個案例增加兩個字段CandidateTimes和SatisfactionTimes,CandidateTimes表示某案例被推送為候選案例的次數,SatisfactionTimes表示該候選案例最終被成功采納的次數。兩者初始值均為零,當某個案例被成功檢索并推送給用戶時,Candi⁃dateTimes+1,用戶對于系統推送的案例給予評價,若用戶滿意并可用則SatisfactionTimes+1。久而久之,若某案例的CandidateTimes遠大于SatisfactionTimes,說明該案例的實用價值不高并影響案例庫質量,應在系統優化階段予以剔除。
3.3利用RSS實現案例知識的聚合與推送RSS通過支持基于XML的RSSFeed實現信息內容的訂閱、聚合和推送,為用戶提供個性化的“一站式”知識服務。用戶能夠訂閱案例內容的先決條件是系統提供了RSSFeed,它由一個URL唯一標識,是以XML格式寫成的文檔,包含標題、摘要或內容選錄等。RSSFeed有多種生成方式,對主要用于案例讀取而更新較少的案例庫,可以采用RSSCre⁃ator等Feed生成軟件從案例庫中讀取現成數據,生成靜態XML文件,實現RSS輸出;對于案例庫與用戶交互頻繁,案例庫更新較快的系統可根據用戶的請求編程動態生成XML文件【16】。當用戶進行案例檢索時,系統在返回候選案例列表的同時自動給出RSSFeedURL。由于本文提出的系統采用B/S模式,所以用戶可通過在線RSS閱讀器或瀏覽器自帶RSS功能訂閱相應URL,閱讀器解析XML文檔中的每個條目,從而得出新下載的RSSFeed中新增的條目并呈現給用戶。CBR中RSS的解析結構如圖5所示。系統模塊提供完整的案例內容,同時生成相應案例的RSSFeed,內容聚合器讀取最新RSS文件匯總并進行索引,之后瀏覽器端連接到聚合器,用戶通過點擊標題鏈接獲取詳細內容。當案例庫中增加相關主題的案例或案例內容發生變更時,系統便可從多案例源搜集整合內容到單個數據流反饋給用戶。如此做一方面案例的可見度提高,即使當前沒有檢索需求,用戶仍可以從主動推送的內容中學習到自己感興趣的知識,節省了用戶篩選、獲取信息的時間成本,每個用戶既是被動的信息獲取者,又是主動的信息提煉者【17】;另一方面,由于關注度提高,相應案例的使用頻率和影響程度也大大增加。
3.4利用文本挖掘實現案例知識的結構化表示文本挖掘是分析文本數據、抽取文本信息進而發現文本知識的過程,它關注于發現數據中的隱藏信息【18】。對于含有大量文本數據的CBR系統,案例的形式和內容往往由描述者決定,其文本的邏輯、表達和寫作格式不盡相同,如果不借助文本挖掘技術獲取文本的主要內容特征,后續的案例分析、檢索等都難以開展。CBR系統中文本挖掘的應用場景如圖6所示。用戶通過Wiki平臺記錄的非結構化案例文本傳遞給文本挖掘模塊做進一步處理。針對差異化的案例描述,通過文本預處理、關系抽取和關聯分析等一系列步驟把非結構化、半結構化的數據轉化為結構化的案例知識以框架的形式表示出來,并存儲到案例庫中。從這個角度來講,文本挖掘使案例庫在沒有專家知識支持的情況下也可產生。此外可將用戶的問題描述轉化為結構化的案例檢索請求傳送到推理模塊,找出與問題案例最相似的歷史案例反饋給用戶。不同案例描述與解決問題的側重點不同,系統通過聚類對案例庫進行分區【5】。聚類的結果構成若干子案例庫,每個子案例庫被當作一個新的個體案例,在使用過程中可用來反推系統進行聚類的特征依據,便于用戶學習案例知識,也使案例庫的更新與系統維護變得更細化更快捷。另外,在每個子案例庫中可選取幾個代表案例,當進行相似度計算時,可先與代表案例進行比較,之后再與相似度較高的代表案例子案例庫中的每個案例逐一對比,縮小檢索范圍,提高檢索效率。用戶通過Wiki平臺貢獻的案例往往數量多且內容較冗長,系統管理人員沒有時間閱讀整篇案例,故可利用自動摘要技術產生案例關鍵詞甚至摘要,抽取的關鍵詞在案例中被高亮顯示,幫助管理員快捷有效地決定是否將此案例添加到案例庫中,其結果也可作為確定案例索引數據權重的輔助方法【19】。同時,案例中諸如創建者、時間、地點等要素也被抽取出來構建單獨的索引。
4結語
案例推理作為迅速發展起來的人工智能子領域,案例庫中案例的數量與質量,用戶的參與度是決定系統成敗的關鍵因素。本文提出了一個將Web2.0與文本挖掘技術引入CBR的原型系統,一方面使案例庫內容可以主動增加與更新,系統動態性增強,另一方面為用戶提供了一個溝通協作與學習的平臺,提高系統用戶的參與度與交互性,使用戶體驗與系統生命力大大增強。文中詳細分析了標簽、Wiki、RSS與文本挖掘技術在CBR系統中的應用與實現,同時也為其他知識庫系統設計提供了一個指導方向。最終希望通過本文提出的方法引發更多從用戶角度對于CBR系統的探討,另外根據現有成果開發相應的平臺與系統,在實踐中驗證該方案的有效性有待進一步深入研究。
作者:吳彥偉 劉東蘇 李慧 單位:西安電子科技大學 經濟與管理學院