- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
許多系統(tǒng)的全部或大部分層次都是基于有限自動機來設(shè)計的,盡管在實踐中因為單個自動機通過特征記錄得以加強(例如在FASTUS系統(tǒng)中),或因為自動機只是作為完整剖析器的一個預(yù)處理階段,例如(Gaizauskas et al.,1995;Weischedel,1995),或因為自動機與其他組件通過決策樹相結(jié)合(Fisher et al.,1995),所以從技術(shù)上看大多數(shù)完整的系統(tǒng)并不是有限狀態(tài)的。
圖1 FASTUS(Hobbs et al.,1997)信息抽取引擎對例句生成的模板
圖2 FASTUS(Hobbs et al..1997)中的處理層次。每個層面抽取一種特定的信息,并將這類信息傳送給較高的層次
下面讓我們跟隨文獻Hobbs et al.(1997)和Appelt et al.(1995)來概略了解一下FASTUS系統(tǒng)每個層次的具體實現(xiàn)。在詞例還原以后,第二階段識別像set up和joint venture這樣的多詞單元和Bridgestone Sports Co.這樣的名稱。名稱識別器是一個轉(zhuǎn)錄機,該轉(zhuǎn)錄機由大規(guī)模的特定映射集組成,以便于處理地名、人名、組織名、公司名、聯(lián)盟名和演出團體名等名稱。下面給出的是為獲取像San Francisco Symphony Orchestra和Canadian Opera Company 這樣的演出組織名稱而設(shè)計的典型規(guī)則。雖然這些規(guī)則是由上下文無關(guān)語法寫成的,因為不存在遞歸,所以這些規(guī)則可以自動編譯為有限狀態(tài)轉(zhuǎn)錄機:
Performer-Org → (pre-location) Performer-Noun+ Perf-Org-Suffix
pre-location → locname I nationality
locname → city I region
Perf-Org-Suffix → orchestra, company
Performer-Noun → symphony, opera
nationality → Canadian, American, Mexican
city → San Francisco, London
在第二階段也可以將forty two這樣的序列轉(zhuǎn)錄為正確的數(shù)值。
FASTUS系統(tǒng)的第三個階段利用有限狀態(tài)規(guī)則生成了一系列基本短語,比如名詞詞組、動詞詞組等。圖3給出了FASTUS的基本名詞短語識別器的輸出結(jié)果。注意,其中使用了一些特定領(lǐng)域的基本名詞短語,比如Company和Location。
圖3 利用Appelt and Israle(1997)中描述的有限狀態(tài)規(guī)則,F(xiàn)ASTUS的基本短語識別器在第二階段所獲得的輸出結(jié)果
如何將這些基本短語組合成復(fù)雜的名詞詞組和動詞詞組?這是在FASTUS的第四個階段,通過處理下面的連詞和數(shù)量短語:
20,000 iron and "metal wood" clubs a month,
以及介詞短語:
production of 20,000 iron and "metal wood" clubs a month,
而實現(xiàn)的。第四個階段的輸出是一個復(fù)雜的名詞詞組和動詞詞組的列表。在第五個階段,我們利用這個列表,忽略所有沒能形成復(fù)雜詞組的文本,識別復(fù)雜詞組中的實體和事件,并將這些識別出的客體插入正確的模板。實體和事件的識別是通過手工編寫的有限狀態(tài)自動機實現(xiàn)的,這些自動機的轉(zhuǎn)移基于特定的復(fù)雜短語類型,而這些復(fù)雜短語類型是通過特定的中心詞或特定特征,比如company,currency或date來標注的。
例如,上面給出的新聞中的第一個句子通過下面的兩個正則表達式來生成語義模式(其中,NG表示Noun-Group,VG表示Verb-Group):
● NG (Company/ies) VG(Set-up) NG(Joint-Venture) with NG(Company/ies)
● VG (Produce) NG(Product)
對于第二個句子,除了生成上述的第二個模式以外,還生成了下面的兩個模式:
● NG (Company) VG-Passive (Capitalized) at NG(Currency)
● NG (Company ) VG (Start) NG(Activity) in/on NG(Date)
圖4中給出的是這兩個句子的處理結(jié)果:5個初步的模板的集合。然后這5個模板必須合并成圖15.7所示的單一層次結(jié)構(gòu)。合并算法決定是否兩個行為(activity)或關(guān)系(relationship)的結(jié)構(gòu)一致到足以認定它們所描述的是同一事件,如果是同一事件,就并合它們。因為合并算法必須首先實現(xiàn)指代消解(確定什么情況下兩個描述所指的是相同的事件)。
圖4 FASTUS系統(tǒng)的第五階段產(chǎn)生的5個局部的模板。這些模板將通過第六階段的合并算法生成圖1所示的最后的模板
責任編輯:admin