本站小編為你精心準備了檔案管理中的文檔分類技術應用的分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
文檔分類,或者稱之為自動地指派語意上的類別予以由自然語言所構成的文檔,是目前常用來管理檔案信息的一種方法。歸納式的文檔分類希望從一些事先標定的文檔集里推導出一個分類的準則,此后可以正確地應用此分類準則來對未知的新文檔做分類。
一是二元(Binary)設定法。二元設定法是最簡單,也是學習型問題(LearningProblem)里最重要的設定公式。其它復雜的設定法都可以通過一定的簡化步驟,退化為二元設定法的公式。在二元設定法里,只存在兩種類別標簽。例如在檔案信息檢索(InformationRetrieval)的應用問題里,此兩種類別標簽可以被標定為“相關”或者是“不相關”這兩大類。同樣的,在電子檔案的分類應用里,可以將接收的電子檔案區隔為“垃圾文檔”與“非垃圾文檔”這兩大類。這代表類別標簽的值只能有兩種可能的值,為了符號定義的方便,這兩種可能的值設定為-1與1。
二是多類別(Multi-Class)設定法。有些分類的問題牽涉兩類以上的分類法。例如一個電子文檔派送程序,它負責判斷是否將所有接收到的電子文檔轉發給十位中層管理人員。這代表類別標簽可以是十個(更廣義的說法為l)同的值。
三是多標簽(Multi-Label)設定法。絕大多數文檔分類的問題落在該設定法內。它和多類別設定法不同之處在于類別標簽和文檔之間不是一對一的對應關系。相反地,每一個文檔都可以落在多個、唯一一個,甚至是零個的類別之內。例如,當檔案的情境為分類新聞報導時,每一個語意上的主題都可以成為某一類別的標簽,所以一篇新進的新聞報導可以同時落在“足球”和“巴西”這兩個不同的類別之內。這類的設定法可以用一個多維度的二元向量來代表眾多的類別標簽。因為類別標簽已經使用單維度的二元向量的方式來表示,分類規則所產出的結果也必須是單維度的二元向量。
二、檔案管理中的文檔分類應用詞匯
在處理自然語言的問題時,文檔內的上下文脈絡(Context)會影響一段文字表達的意義,同樣的一個單詞,在不同的句子里可以有不同的意義。在文檔分類的問題里,會采用不同的方法來表達文字,根據不同的需求,可能會也可能不會辨別這些不同的相依性和意義。一般而言,根據文檔分析層級的深度,總共有下列四種不同的表達法:次詞(Sub-Word)層級;字詞(Word)層級;多詞(Multi-Word)層級;語意(Semantic)層級。在每一個層級里,最基本的構成組件(BuildingBlock)稱之為索引字(IndexTerm)。
一是字詞(Word)層級。在很多的情況之下,單詞是很好的表達單位,同時單詞具備很低的模棱兩可性。盡管存在所謂的多義詞,但也假設其對整體文檔的代表性的沖擊是很小的。事實上,字詞層級的表達方式已經被證實在信息檢索與文檔分類的領域里是很有效的。以單詞為基礎的表達方式的優點為簡單和直覺。不考慮邏輯上的結構,使用單詞當成是索引字的最小單位可以把一份文檔轉化成一連串單詞的組合。同時我們假設單詞出現的順序在文檔分類的任務中是無關緊要的。
二是次詞(Sub-Word)層級。該層級不使用單詞當成是索引字,一個由n個字母所構成的字串被視為基礎的構成組件,這種表示法可以建立相似性的模型,如“computer”和“computers”是不同的單詞。使用這種表示法的優點是系統可以處理拼字錯誤,允許使用者輸入錯誤的單詞,經由系統比對,自動找到類似的單詞。
三是多詞(Multi-Word)層級。借助語言學上的工具的輔助,大量的文檔可以基于句法(Syntactic)上的結構做深入的分析。在這一個層級里,索引字通常是參考句法結構的信息所產生的。最常被使用的句法結構之一是“名詞片語”。這種方式通稱為句法片語索引(SyntacticPhraseIndexing)。
四是語意(Semantic)層級。到目前為此,現今既有的信息科技與技術尚未能做到自動化的摘取一份文檔的內容所代表的完整語意,并且表達成可以用以作為數學運算的形式。但是就某些角度而言,有研究指稱可以使用分類學以及一些固定字匯的索引語言來取得文檔所代表的語意。網絡上的Yahoo!分類架構就是其中一個例子。Yahoo!使用階層式的分類樹,用以組成整體的分類結構,接著以人工的方式將網頁分到一至多個的分類類別里。
作者:盧紅單位:山東電力建設第三工程公司