本站小編為你精心準備了并列結構識別研究參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
《電腦與信息技術雜志》2014年第三期
并列結構分為有標記的并列結構和無標記的并列結構。吳云芳[8]指出,對于有標記的并列結構,處理的關鍵是確定并列結構的邊界;對于無標記的并列結構,處理的關鍵是辨別同類詞連用形式的歧義格式。下面介紹并列結構識別的三種方法:自底向上的圖表算法、中心詞驅動的并列結構識別、基于條件隨機場的并列結構識別。
1自底向上的圖表算法
自底向上的圖表算法是Hara[5]等提出的,解決嵌套的和非嵌套的并列結構的識別。自底向上的圖表算法即可以處理非嵌套的也可以處理嵌套的并列結構。該方法包含下面兩個步驟:定義并列結構的語法結構;并列結構樹分值的選取。(1)并列結構的語法結構并列結構的語法結構是為了確保兩個或多個并列成分的一致性。對于任何兩個并列結構,它們或者是沒有重疊的兩個獨立的并列結構(非嵌套)或者是一個并列結構是另一個并列結構的一個并列成分的內部部分(嵌套)。并列結構分為完全并列結構(COORD)和部分并列結構(COORD’),主要是為了處理包含三個或三個以上并列成分的并列結構。例如,(a,b,c)在句子中有下面三種形式的并列結構樹,如圖1所示。其中,圖1(a)中的內部樹(bandc)是部分并列結構,它與前面的并列成分a一起構成一個完整的并列結構,部分并列結構用COORD’表示。圖1(b)是嵌套的并列結構,bandc是完整的并列結構,a與(bandc)有構成一個并列結構,且(bandc)是該并列結構的一個并列成分。圖1(c)中不包含并列結構。(2)并列結構樹分值的選取自底向上的圖表算法能夠有效的獲取由一個句子產生的分值最高的并列結構樹。并列結構樹的分值取所有節點的加和,并且每個節點的分值的計算都是獨立的。這里只將COORD和COORD’兩種類型的節點設為非空值。并列結構節點的得分是通過捕捉連詞下方的序列對的對稱性獲得的。
2中心詞驅動的并列結構識別
中心詞驅動的并列結構識別算法是由吳云芳[8]提出的,該算法分為下述3個步驟:(1)利用邊界特征詞劃定并列結構的大致范圍。(2)對于名詞性的右中心結構(如圖2所示),并列標記之前第一個詞語被認定為前并列成分中心詞,根據一系列相似性原則,在并列標記后搜索與前中心詞相似度最大的詞語作為后并列成分中心詞,后并列成分由此確定;對于動詞性的左中心結構(如圖3所示),算法類似只是方向相反。(3)根據并列成分結構平衡與相似的原則,在并列結構前端搜索與后并列成分平衡性和相似性最大的詞串作為前并列成分。步驟1中提到的邊界特征詞是指大多位于并列結構外部而不位于并列結構的內部的詞語,如果位于并列結構內部,該詞一般情況下只與其自身形成的并列結構。吳云芳將并列結構的邊界特征詞分為3類。前邊界特征詞、前邊界特征詞類、后邊界特征詞。其中,前邊界特征詞主要有:來自、受到、得到、有利于、包括、具有、涉及、是、作為、如、諸如、例如、來等;前邊界特征詞類主要是連詞(C)和介詞(P);后邊界特征詞主要有:等、等等、都、分別、均、共同、也、之間、來、聯合等。
3基于條件隨機場的并列結構的識別
用于自然語言處理的統計機器學習模型有很多種,如:最大熵、隱馬爾科夫、條件隨機場等。條件隨機場作為一個無向圖模型在序列標注問題上比隱馬爾科夫模型、最大熵模型等有向圖模型識別的效果好[18]。王東波[11,19]運用條件隨機場識別有標記的聯合結構。條件隨機場模型是Lafferty[20]在最大熵和隱馬爾科夫模型的基礎上提出的一種用于標注和切分的序列化標注模型。基于條件隨機場(Crf)的并列結構識別的系統流程圖,如圖4所示。
4結束語
并列結構是一種特殊的語言形式,且并列結構識別是自然語言處理不可或缺的一部分。并列結構各并列成分的相似性除了結構平行性之外,還有中心語相似的特性。并列結構能得到很好的識別,許多自然語言處理的其它問題都能迎刃而解。但是,目前并列結構的識別效果并不理想。本文對已有的并列結構識別的研究方法和研究成果作了相應介紹,希望能對并列結構研究的學者給予幫助。
作者:王楊單位:遼寧行政學院