在线观看国产区-在线观看国产欧美-在线观看国产免费高清不卡-在线观看国产久青草-久久国产精品久久久久久-久久国产精品久久久

美章網 精品范文 自動識別技術論文范文

自動識別技術論文范文

前言:我們精心挑選了數篇優質自動識別技術論文文章,供您閱讀參考。期待這些文章能為您帶來啟發,助您在寫作的道路上更上一層樓。

自動識別技術論文

第1篇

關鍵詞:超高頻;射頻識別;車輛管理

1 引 言

隨著我國城市化建設的快速發展,人民生活水平的不斷提高,車輛數量和道路交通流量急劇增加,而道路的建設遠趕不上車輛的增長,伴隨而來是交通擁堵、車輛違章違法等現象的日益突出,傳統的車輛管理系統已經面臨巨大挑戰。目前發展的射頻識別(RFID)技術為這個問題的有效解決提供了理想的解決方案,同時也是以后車輛管理自動化的發展方向[1-7]。

而對公交公司而言,其停車場平時需要管理大量的公交車輛,同時車輛停放比較分散,出入頻繁,車輛日常管理和安全監管難度較大。因此,需要采用高智能化的管理手段來實現停車庫信息化管理的建設[8-10]。

在深入分析國內外成熟的基于RFID的智能停車場管理系統關鍵技術基礎上,以某公交公司的車輛管理為典型應用背景,本文提出的一種基于超高頻射頻識別(RFID)技術的車輛管理應用方案。該方案可有效降低車輛信息查詢復雜程度、車輛定位等問題。該系統采用自行研發的FR520讀寫器等關鍵設備,并通過立體停車庫的大量測試結果證明方案合理可行,運行穩定可靠[11-15]。

2 射頻識別技術

自動設備識別系統(Automatic Equipment Identification, AEI)是國際上正在努力開發并快速推廣普及的技術。它適用于安全性要求較高的部門的車輛電子自動管理系統。該項技術的基本思想是通過采用一些先進的技術手段,實現人們對各類物體和設備在不同狀態(高速移動、靜止、惡劣環境)下的自動識別和管理,特別是采用超高頻RFID技術的自動設備識別系統正日益廣被使用。

RFID也稱智能標簽,是繼個人電腦(PC)、互聯網、無線通信之后的第四次信息技術革命。一個RFID系統通常由三部分組成:讀寫器、標簽及相關的天線。讀寫器天線發射無線電信號給標簽,標簽通過自己的天線接收此信號,利用該信號得到的能量啟動標簽上的集成電路芯片工作。作為條形碼的無線版本,智能標簽技術具有條形碼所不具備的防水、防磁、耐高溫、使用壽命長、讀取距離大、標簽上數據可以加密等一系列優點,正在許多領域得到應用。

在圖1所示的簡單RFID系統中,現將閱讀器(Reader)、天線(Antenna)和標簽(Tag)的作用分別描述如下:

閱讀器:讀取(有時還可以寫入)標簽信息的設備,可設計為手持式或固定式;

標簽:由耦合元件及芯片組成,每個標簽具有唯一的電子編碼,附著在車輛上標識目標對象,標簽編寫成車輛的編碼唯一識別;

天線:在標簽和讀取器間傳遞射頻信號。

圖1 系統工作原理示意圖

3 車輛管理系統設計

針對公交公司車輛管理背景,以其所屬的一個典型的立體停車場為例,車輛管理系統設計過程中需要重點考慮的問題包括:

(1) 建設目標

為立體停車場管理人員提供實時監控車輛信息的平臺、實現智能化車輛規范有序定位管理;還可以在管理立體車庫的車輛進出,嚴密監視出入車輛,有效控制定位車輛的作息位置,保證系統運行穩定可靠。

(2) 豐富的功能

具有自動識別、智能控制、車輛定位管理、報警提示、信息記錄、數據通信、查詢、統計、分析等功能;同時具備擴展方便,升級容易等特性。

(3) 運行穩定可靠

具有冗余容錯性能;系統處理速度快,可靠性高,穩定性好,錯漏率低,并具有數據備份、數據恢復能力。

(4) 車輛實時定位管理

對于立體車庫內車輛進行數字化管理;通過自動識別車牌卡信息,可以對車輛進出時間進行跟蹤,同時定位車輛停放及作息位置的信息。

4 車輛管理系統方案

(1) 系統分部網絡結構

圖2所示的智能車輛管理系統是以后臺管理系統和前端控制系統通過專用網絡傳輸設備組成的管理系統,網絡通信協議采用TCP/IP協議。而前端控制系統內的通道識別系統則采用10/100M以太網組成的一個小的局域網系統,進行識別和外設控制管理。

圖2 系統分布網絡結構

(2) 立體車庫平面結構

圖3所示為該立體車庫的讀寫系統覆蓋效果圖。系統軟件可以控制讀寫器的四根天線的輪詢讀取車輛標簽時間順序,根據每個天線能管理定位對應停車區域的車輛,能把實時的公交停車位置區域上報到公交公司的調度室,方便管理人員對車輛管理與停放位置的查詢定位。

(3) 車輛管理平臺組成

后臺管理平臺包括:管理計算機、發卡讀寫器、讀寫器、讀寫器專用天線及電纜。其中上層應用軟件及其數據庫系統安裝并存儲在管理計算機上。

5 固定式閱讀器選型

圖4所示是一種能滿足本文系統需求的四通道遠距離超高頻RFID固定式閱讀器產品HIK-FR520,支持DRM工作模式,具有良好的防沖突和抗干擾性能,識別率高,功能強,可靠性高,可擴展性好等特點。

該產品可廣泛應用于智能交通、服裝盤存、智能倉儲等領域,能夠實現現代化的物流管理,海關智能通關、城市車輛自動識別、智能停車場、高速公路不停車收費應用等集成系統。其主要特點包括:

兼容EPC C1 Gen2/ISO 18000-6C;

PowerPC架構CPU MPC8308,128 MB RAM;

具有載波消除功能,抗干擾能力更強;

支持EPC密集型讀取模式(DRM);

遠距離讀取,RF輸出功率達到32.5 dBm;

支持4路天線接口;

支持640 Kb/s標簽數據讀取速率;

配置以及參數設定靈活,提供最大化標簽閱讀量和最佳工作性能;

智能交通及車輛管理

大規模RFID系統應用

圖3 讀寫系統覆蓋效果圖圖 4 超高頻固定式讀寫器

HIK-FR520的主要性能指標如表1所列。

6 車輛管理系統的特點

公交立體停車管理智能是運用超高頻自動識別技術,利用現代計算機技術和自動控制技術等多領域技術,綜合實現車輛自動識別和定位管理。本文提出的超高頻RFID車輛管理系統具有以下主要特點:

整個系統具有遠距離快速識別、智能控制、高可靠性、高保密性、易操作、易擴展等特點;

建立安全可靠的注冊車輛檔案,通過高新技術加強車輛監管防盜功能;

提供一個對進出車輛自動識別、智能管理的先進、可靠、適用的數字化平臺,使公交公司對所有公交車輛出行、位置進行實時動態管理的能力得到質的提高;

能有效、準確的對進出停車庫的車輛(裝有車輛電子號牌的車輛)的數據信息識別、采集、記錄、跟蹤;

實時數據可以通過網絡及時傳送到后臺管理系統,使管理人員在辦公室內就可以及時了解公交車輛的停車在立體車庫位置的情況。

7 結 語

基于射頻識別的智能車輛管理系統是一種高效、快捷及科學的車輛管理手段。本文提出的超高頻車輛管理系統應用于停車場車輛管理中,具有效率高、準確性好、安全性高的優點。該系統易于操作維護,自動化程度高,大大減輕管理者的勞動量。該方案的主要創新點在于為立體停車場管理人員提供實時監控并識別車輛信息的平臺、實現車輛的智能化規范有序定位管理,系統功能豐富,運行穩定可靠,具有廣闊的市場應用前景。

參 考 文 獻

[1]楊筆鋒,詹艷軍. 基于射頻識別的智能車輛管理系統設計[J]. 計算機測量與控制,2010,18(1):97-99.

[2]黃銀龍,張輝,徐旭,等. 車輛管理RFID電子標簽內存規劃研究[J]. 通信技術,2010,43(2):141-145.

[3]王慶安. 基于RFID和GPRS的非機動車輛管理系統研究[J]. 中國制造業信息化,2007,36(13):66-68.

[4]狄巨星,趙建光,范晶晶,等. 車輛管理RFID標簽電源低功耗研究[J]. 電源技術,2013,37(7):1233-1274.

[5]尼濤,楊宏,艾春安. 基于RFID技術的車輛管理門禁系統設計[J]. 工業控制計算機,2005,18(9):1-2.

[6]馬凱. 基于多節點射頻卡的車輛管理系統研究[J]. 交通標準化,2013(13):34-36.

[7]孫欣. 基于超高頻RFID的第三方物流車輛管理解決方案[J]. 自動化博覽,2012(2):80-82.

[8]楊洋. 基于RFID技術的武警車輛管理系統研究[D]. 哈爾濱:黑龍江大學(碩士學位論文),2011.

[9]楊國榮. 基于RFID技術的智能小區車輛管理系統設計[J]. 信息技術,2012(6):182-185.

[10]程仁鎮. 基于車輛管理的RFID讀寫器設計[D]. 武漢:武漢理工大學(碩士學位論文),2012.

[11]張圣仟,楊小天,遲耀丹. 基于RFID在車輛信息自動識別技術的研究與應用[J]. 吉林建筑工程學院學報,2012(2):76-78.

[12]李元忠,余權,姚海天,等. 構建智能交通平臺——RFID技術在城市車輛管理中的應用[J]. 中國自動識別技術,2008(4):90-92.

[13]王煌城,王宇歆. RFID應用於交通管理之研究[C].海峽兩岸智慧型運輸系統學術研討會, 2006.

第2篇

論文關鍵詞:物聯網,大學管理,應用研究

 

一、物聯網的概念

物聯網(Internet of Things,簡稱IoT)是新興的IT技術,它是指通過把射頻識別(RFID)、紅外感應器、全球定位系統、激光掃描器等信息傳感設備,嵌入和裝備到公路、建筑、電網、供水系統、大壩、油氣管道等各種各樣的物體中,再結合現有的互聯網,實現人類社會與物理系統的整合的一種IT技術。

在這個經過整合的物聯網當中,通過互聯網實現物品的自動識別和信息的互聯與共享,另外中心計算機群也能對整合網絡內的人員、機器、設備和基礎設施進行實時的管理和控制。通過這樣一種技術手段,人類就能以更加精細和動態的方式管理生產和生活,達到“智慧”狀態,從而提高資源利用率和生產力水平大學管理,改善人與自然間的關系。

二、基于大學校園管理的物聯網關鍵技術

1. 感知技術

物聯網多通過RFID技術、傳感器來達到感知的目的。

RFID(Radio Frequency IDentification)技術,中文名為射頻識別技術,它是一種非接觸式的自動識別技術,通過射頻信號自動、快捷、方便地識別目標對象并獲取相關數據,從而實現對各類物體在不同狀態(移動、靜止、惡劣環境)下的自動識別和管理。

傳感器是能感受規定的被測量,并能按照一定的規律轉換成可用輸出信號的器件或裝置,多為敏感元件和轉換元件組成,用來感知信息采集點的環境參數。

2. 傳感器網絡

傳感器網絡是一個分布式智能化網絡系統。它在每個節點配備了傳感器、無線電收發器、微控制器和能源裝置等部件,再通過這些部件的協作,就可以監控不同位置的物理、環境狀況論文參考文獻格式。

3. 無線網絡

無線網絡指的是使用無線電技術進行傳輸的計算機網絡,它是有線網絡的延伸,和有線網絡功能相似,只是傳輸技術不同而已。它的優勢是在沒有有線網絡的地方,或是移動的環境下,也能同樣地連接上網絡。

4. 數據融合技術

數據融合技術是利用計算機技術、人工智能等技術,將來自多個傳感器的觀測數據進行采集、過濾、自動分析、綜合處理,進而得出相應的估計、決策等信息,以便輔助人們進行管理、決策工作。

三、物聯網在大學校園管理中應用的前提條件

大學作為年輕人密集的地方,同時也是高級知識分子集結地,在大學校園管理中運用物聯網技術,能迅速被人們接受和運用。且目前很多高校都擁有多年的校園網絡建設,已擁有校園網及校園無線網絡。這些都為物聯網在高校管理中的運用提供了前提條件。

四、物聯網技術在大學校園管理中的應用

1. 應用于圖書館檔案室管理

利用物聯網構建新型的高校圖書館、檔案室管理平臺大學管理,可以創新很多管理辦法。

圖書館、檔案室工作人員將RFID標簽貼在圖書、檔案中,通過標簽中的芯片和天線,再利用物聯網構建出RFID的無線射頻智能系統,這樣就能讓圖書、檔案擁有了GPS的定位功能。圖書、檔案在移動過程中,一旦經過館室中的各個檢查點,就立刻并跟蹤并記錄下來,并在服務器中儲存相關信息。這樣子,師生們在電腦上輸入書名、檔案的師生姓名,就能實時地掌握圖書、檔案當前的具置,再使用便攜式的掃描設備、手持機等工具進行跟蹤,就能快速找到自己想要的書籍、檔案。物聯網技術的引入,使得以前單純依靠號碼、人工查找的辦法得到了智能化的改革。

依據物聯網技術,還可以設計出圖書自助借還設備,師生們在借還圖書時,可以來到自助借還設備前邊,讓設備自動讀取借書證和圖書,由于使用RFID技術,設備可以在幾十厘米到幾米距離內讀取圖書,還可以一次讀取多本圖書,這樣子就提高了圖書借還速度,比之前使用條形碼,由圖書館工作人員現場一本一本地辦理借還手續高效得多。同時大學管理,設備還可以提供24小時借還圖書服務,為高校師生提供更為方便的服務。

在高校圖書館、檔案室中引入物聯網技術,將能為這些地方的管理提供靈活高效、減少人力的智能化方案。

2. 應用于校園安防管理

在物聯網安防管理平臺中,通過射頻識別、圖像識別、GPS、無線傳導網絡、遙感等技術,并結合日常的視頻監控系統,全面感知校園的環境、人和物的變化,而計算機系統將這些感知信息進行匯總、處理,適時地進行提示或報警。通過物聯網技術,我們就可以全方位地提升校園的安防自動化程度,實現智能化的識別和管理,提高效率,節省人力,從而更好地進行安防管理論文參考文獻格式。

當有物體闖上校園的圍墻或其他敏感區域時,系統通過在這些區域的紅外激光、次聲壓傳感檢測器、感應光纖等傳感終端,判別闖入物體的大小和具置,并通過傳感網絡調轉相應的攝像頭監控該區域,同時依靠圖像識別技術跟蹤闖入物體,相應的提醒信息也立即發送到中心和高校保衛人員的手持設備中。在得到提醒后,保衛人員就能立即調取該攝像頭的畫面。經過觀察后,當確實需要派保衛人員趕到現場時,物聯網安防管理平臺還可以利用地磁傳感器、校道旁安置的無線傳感節點、無線傳感網,以及保衛人員身上的手持終端大學管理,實時把握保衛人員在校園內的定位,以此中心就能方便地調度最近位置的人員前去現場。

物聯網技術的引入帶來了安防方法的改變,與先前的視頻監控系統安防方法不一樣了,物聯網技術的安防管理不再要求保衛人員一直守著監控屏幕觀看。由于傳感網絡擁有圖像識別智能技術,能夠在邊界內出現異動時,及時感知信息,自動跟蹤拍攝和錄制畫面,并向中心和人員發送提醒信息。保安人員可以只在收到信息后才調取、查看相應攝像頭的畫面。這將使得高校的安防管理輕松不少。

第3篇

摘 要:介詞短語作為一種重要的短語類型在漢語中分布廣泛,正確自動識別介詞短語在自然語言處理的應用領域具有重要意義和積極影響。本文嘗試利用目前比較流行的條件隨機場模型,主要面向漢語專利文本,對其中的介詞短語進行識別研究。首先在分詞和詞性標注的基礎上對語料進行序列特征標注,然后利用條件隨機場工具包訓練了識別介詞短語的模型,最后設計相關實驗來驗證方法的效果,實驗準確率達到90%以上。

關鍵詞 :介詞短語 條件隨機場 識別

一、引言

專利文獻在國家經濟發展和科技交流中發揮著十分重要的作用。近年來,中國專利的申請數量漲速飛快。面向專利領域的文本信息處理(如專利文本機器翻譯)逐漸成為自然語言處理的重要應用領域之一,并引起了學術界和業界的廣泛關注。

為了滿足專利文本特定的表述需要,介詞短語作為一種重要的短語類型,在漢語專利文本中分布廣泛。據統計,在隨機抽取的500句漢語專利語料中,包含介詞短語的句子有226句,占到了樣本總量的45.2%。[1]可見介詞短語的出現比例非常高。漢語介詞短語的自動識別具有較大的難度,主要表現在以下幾點:

1.介詞短語的內部構成相當復雜。介詞短語可以由介詞與其他詞語和短語(動賓短語、名詞短語、方位短語、時間短語等)構成,甚至可以由整個句子構成。復雜的內部結構很容易形成遠距離的搭配關系。

2.兼類介詞的存在。在一定的語境下,介詞還可以兼做名詞、量詞、形容詞、連詞和動詞等,必須結合上下文語境才能判斷具體詞性。

3.在同一個句子中經常會出現多個并列的介詞短語,或者會出現復雜的嵌套介詞短語。

下面是一個包含介詞短語的真實專利語句示例:

(1)本發明【在條件允許的情況下】【通過[為一個宏塊中的不同區域]提供不同的預測信息】而提出了許多更加準確的結果。

從例句可以明顯地看出,專利文本中的介詞短語通常具有更多的字數和更為復雜的結構。例句中用括號標示出了兩個并列的介詞短語結構,其中一個的內部還有另外一個介詞短語,屬于嵌套結構的介詞短語。正確識別這些短語就比較困難了。

在句子S=W1,W2,W3……Wn中,假設字符串Wi,Wi+1……Wj為待識別的介詞短語,介詞短語識別的主要任務就是分別將Wi和Wj識別為該介詞短語的左右邊界。由于左邊界就是介詞本身,因此關鍵問題在于確定右邊界位置。介詞Wi通常稱為前界,右邊界Wj稱為后界,緊鄰右邊界的詞語Wj+1一般稱為后詞。

考慮到介詞短語分布的廣泛性和對專利文本處理的影響,本文嘗試利用條件隨機場模型(Conditional Random Field,即CRF),主要對大規模專利語料中位于同一分句內部的介詞短語進行自動識別研究,希望能做出一些有益的探索。

二、相關研究

針對漢語介詞短語識別的難點,國內外學者做了大量研究工作,提出了一些有效的方法,主要包括規則方法,統計方法和將二者相結合的混合方法。梁猛杰等(2013)通過考察介詞規則庫的處理特點,依據規則的覆蓋程度從低到高進行分類,重新調整了規則的前后排序方案,同時對排序的規則進行優選,在保證時間復雜度較低的情況下提高了介詞用法自動識別的準確率[2](P152~155)。朱筠(2013)、胡韌奮(2015)等在概念層次網絡理論(Hierarchical Network of Concepts,HNC)[3]的指導下,面向漢語專利領域的文本,專門構建了較大規模的漢語專利語料知識庫,在利用規則方法開展漢英專利機器翻譯研究的過程中探索了介詞短語的識別方法和思想[4][5]。于俊濤(2006)釆用基于最大熵模型的方法,通過獲取有效的特征集合完成了介詞短語識別的任務。奚建清(2007)引入機器學習方法,提出了基于隱馬爾可夫模型(HMM)的漢語介詞短語邊界確定方法。首先基于HMM自動識別介詞短語,然后利用依存語法錯誤校正方法對識別結果進行修正,取得了不錯的識別準確率[7](P172~182)。胡思磊(2008)、宋貴哲(2011)、張杰(2013)利用CRF模型對介詞短語進行識別,取得了較好的效果。于俊偉(2005)采用了規則和統計相結合的介詞短語識別方法,提出了利用搭配模板獲取可信搭配關系以及基于詞性的三元統計模型和規則相結合的方法識別介詞短語[11](P17~23)。昝紅英等(2013)在已有工作的基礎上,提出了一種規則與CRF模型相結合的介詞用法自動識別算法。通過將人工書寫的規則與CRF在宏觀層面和微觀層面進行有機的結合,根據介詞的具體特點,選擇合適的識別方法,使最終的識別準確率達到了80%左右[12](P2152~2157)。

三、CRF模型介紹

作為一種基于統計的判別式學習模型,CRF模型最早由Lafferty等人在2001年提出。該模型來源于最大熵模型。CRF通過計算和統計已知元素推理計算未知元素的條件概率。與隱馬爾可夫模型不同,CRF可以利用上下文信息,而不需要嚴格的獨立性假設,因此在序列標注問題中表現出很好的性能。此外,CRFs還解決了最大熵馬爾可夫模型(MEMM)中的標注偏置問題。CRFs被廣泛應用于自然語言處理領域的句法分析、命名實體識、詞性標注等方面,并取得了很好的效果。CRFs是一種以給定的輸入序列X為條件來預測輸出序列Y概率的無向圖(undirected graphical)結構模型。(X,Y)就是一個以觀察序列為條件的隨機域。概率計算可以通過如下公式得到:

四、基于CRF的介詞短語識別

國外學者已經開發了完整的CRF模型工具包,利用工具包可以快速地訓練模型并得到相應的結果。在本文中,將使用CRF++0.53版本的工具包①對中國專利信息中心提供的專利語料進行訓練。

(一)序列標注

很多基于CRF模型的語塊識別任務通常可以轉化為序列標注問題。在識別介詞短語的過程中,首先對包含介詞短語的句子進行分詞處理,然后對每個詞語進行標注,確定介詞短語的邊界。我們采用{B, I, E, O}標記集進行標記。其中B表示介詞短語的前界,I表示介詞短語的內部成分,E表示介詞短語的后界,O表示不屬于介詞短語的部分。

(2)本發明通過采用有效的方法提高汽車產量。

對于這個例句,可以做出如下標記:

本發明O通過B采用I有效的I方法E提高O汽車O產量O。O

將其反映到序列標注問題上,則可以認為:

輸入序列X={本發明 通過 采用 有效的 方法 提高 汽車 產量 。}

相應地,輸出標注序列Y={O B I I E O O O O }

(二)特征選擇

特征是訓練CRF模型必需的。在CRF中,特征選擇是一個非常重要的問題,選擇合適的特征對模型訓練和測試都將十分有益。盡管可以不加限制地定義標記序列的特征,但不代表特征越多就越好。通過考察大規模語料中介詞短語的特點,初步確定了以下五個特征及其屬性值:

1.詞特征。詞作為句子的基本構成單元,是最基本的特征,模型可以通過詞之間的差異性來尋找詞本身的內部特征。

2.詞性特征。通過分析發現,詞性特征對邊界的識別具有很大的提示作用。因此需要標記序列中詞語的詞性。本文采用北京大學《現代漢語語法信息詞典》中的詞性標記集進行標記。

3.候選前界特征。從當前詞位置開始向前查找,查找位于同一分句中的介詞。如果該介詞存在,則該特征值為介詞本身;否則特征值為“N”。

4.候選后界特征。如果認為當前詞語可以作為介詞短語的后界,則特征值記為“Y”,否則記為“N”。

5.候選后詞特征。后詞對介詞短語的正確識別也起到了很大的提示作用,判斷當前詞是否是候選后詞也能減小后界的選擇范圍。如果認為當前詞語可以作為介詞短語的后詞,則特征值記為“Y”,否則記為“N”。

下表是例句2的標注實例:

將以上五個特征分為五列,對分詞處理后含有介詞短語的每一句語料進行標注,同時在最后一列加入{B, I, E, O}標記集,以確定介詞短語的邊界,以此形成訓練語料和測試語料。

(三)特征模板

對于CRFs模型而言,根據選擇的特征設計出不同的特征模板,根據特征模板系統生成不同的特征函數,會影響系統的性能。因此,特征模板選擇的好壞將直接影響CRFs模型的效果。所以,特征模板的選擇也是CRFs模型在介詞短語識別中的重要問題之一。

CRFs模型的特征模板一般包括原子特征模板和復合特征模板。單獨使用原子特征模板,只能表現出單個位置的特征信息,容易造成期望值和實際結果的偏差較大,導致參數的估計不準確。可以對原子特征進行組合,構成復合特征模板,通過定義各特征的窗口來描述標注單元和上下文之間的關系。本文將窗口大小定義為2。即分別考慮當前詞、當前詞前面兩個詞及后面兩個詞的五項特征。

當完成了序列特征標注任務,就可以利用CRF工具包對模型進行訓練并識別介詞短語了。

五、實驗及分析

(一)實驗結果

在這一部分,設計實驗測試CRF模型識別介詞短語的效果。從中國專利信息中心提供的專利語料中隨機選擇了1000句含有介詞短語的句子作為測試集進行序列標注。實驗采用四倍交叉驗證方法,即將測試集按照數量均分為4等份,其中的3份語料作為訓練語料,另一份作為測試語料,共進行四次實驗,分別計算實驗的三個評價指標:準確率(P)、召回率(R)和F1值,并將實驗的平均值作為最終的參考結果。評價指標計算公式如下:

其中,“N”代表每次實驗的測試集(250句)中介詞短語的數量,“N1”代表模型識別介詞短語的數量,“N2”代表正確識別的數量。

(二)實驗分析

從上表可以看出,實驗的整體評價指標都達到了90%以上,表明CRF模型對于識別介詞短語的有效性。

通過分析識別錯誤的結果,初步認為分析錯誤的原因可能有以下幾點:

1.有的介詞在訓練集中出現次數很少或者幾乎沒有出現,因此CRF模型無法有效學習到這些介詞的特征,當它們出現在測試集中,模型就難以正確識別。

2.有些介詞短語具有歧義,模型不容易判斷短語的右邊界位置。例如:通過墨水著色劑可以有效地使染布上色。這句話中,兩個名詞“墨水”和“著色劑”挨在一起,不確定二者是否可以組成復合名詞,不容易判斷到底哪個名詞才是介詞短語真正的右邊界。

3.CRF模型對于序列的標注特征比較敏感。在人工標注的過程中一些難以避免的標注失誤或錯誤也會導致識別錯誤的現象。

六、結語

本文利用條件隨機場模型嘗試對漢語專利語料中的介詞短語進行了識別研究。在分析大規模語料的基礎上,選擇了合適的特征,對語料進行序列標注,同時利用CRF工具包訓練了識別短語的模型,最后設計了實驗檢驗識別效果。實驗整體的準確率達到了90%以上,表明提出的方法對于識別介詞短語是有效的。

未來將加強對歧義介詞短語的研究,考察更多語料,爭取發現更多有效的特征,同時擴大測試規模,希望進一步提高識別的效果與性能。

(本文得到了“國家高技術研究發展計劃”[863課題,項目編號2012AA011104],中央高校基本科研業務專項資金以及中國博士后科學基金資助項目的資助,特此表示感謝!)

注釋:

①http://crfpp.googlecode.com/

參考文獻:

[1]Li Hongzheng,Zhu Yun,Yangyang,Jin Yaohong.Reordering

Adverbial Chunks in Chinese-English Patent Machine Translation[A].Proceedings of CCIS2014.

[2]梁猛杰,宋玉,韓英杰等.基于規則排序的介詞用法自動識別研

究[J].河南師范大學學報(自然科學版),2013,41(3).

[3]黃曾陽.HNC(概念層次網絡)理論[M].北京:清華大學出版

社,1998.

[4]朱筠.基本句群處理及其在漢英專利機器翻譯中的應用[D].北

京:北京師范大學漢語文化學院博士學位論文,2013.

[5]胡韌奮.面向漢英專利機器翻譯的介詞短語自動識別策略[J].

語言文字應用,2015,1.

[6]于浚濤.基于最大熵的漢語介詞短語自動識別[D].大連:大連理

工大學碩士學位論文,2006.

[7]奚建清,羅強.基于HMM的漢語介詞短語自動識別研究[J].計算

機工程,2007,33(2).

[8]胡思磊.基于CRF模型的漢語介詞短語識別[D].大連:大連理工大

學碩士學位論文,2008.

[9]宋貴哲.漢語介詞短語識別研究[D].大連:大連理工大學碩士學

位論文,2011.

[10]張杰.基于多層CRFs的漢語介詞短語識別研究[D].大連:大連

理工大學碩士學位論文,2013.

[11]干俊偉,黃德根.漢語介詞短語的自動識別[J].中文信息學

報,2005,(4).

[12]昝紅英,張騰飛,張坤麗.規則與統計相結合的介詞用法自動

識別研究[J].計算機工程與設計,2013,(6).

[13]Lafferty J.,Mccallum A.,Pereira F.Conditional

主站蜘蛛池模板: 一区在线免费 | 午夜色婷婷 | www.av在线免费观看 | 精品国产成人系列 | 羞羞视频在线看免费 | 东京天堂热| 国产高清一级在线观看 | 天天五月天丁香婷婷深爱综合 | 亚洲电影网址 | 全国男人的天堂网 | 亚洲视频在线看 | 男女涩涩网站 | 亚洲国产成人精品女人久久久 | 影电影在线观看免费高清完整版 | 久久综合精品国产一区二区三区 | 亚洲深夜福利视频 | 精品久久久久久久久免费影院 | 伊人丁香狠狠色综合久久 | 亚洲一区二区欧美 | 最近中文字幕更新第 | 国产成人综合久久精品亚洲 | 久久久久久国产精品免费免 | 中文字幕久久久 | 国产免费黄| 中文精品久久久久中文 | 亚洲精品国产第1页 | 九九精品免费视频 | 欧美高清一区 | 亚洲国产午夜电影在线入口 | 欧美亚洲第一页 | 亚洲成人免费电影 | 日本高清无卡码一区二区久久 | 欧美洲精品亚洲精品中文字幕 | 久久精品成人一区二区三区 | 最近免费视频中文 | 亚洲高清免费观看 | 五月婷婷丁香网 | 亚洲色播永久网址大全 | 国产成人一区二区三区 | 男人的天堂网在线 | 麻豆网址 |