- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
有些自然語(yǔ)言處理的任務(wù)并不需要進(jìn)行完全的剖析。對(duì)于這些任務(wù),對(duì)輸入句子的局部剖析(partial parse)或淺層剖析(shallow parse)已經(jīng)足夠了。例如,信息抽?。╥nformation extraction)算法一般不必抽取在文本中所有可能的信息,只要抽取那些可以填充所要求數(shù)據(jù)的某種模板就足夠了。很多局部剖析系統(tǒng)都使用層疊式(cascade)的有限狀態(tài)自動(dòng)機(jī)來(lái)替代上下文無(wú)關(guān)語(yǔ)法。依靠這樣簡(jiǎn)單的有限狀態(tài)自動(dòng)機(jī)而不依靠完全的剖析,使得這些系統(tǒng)的效率非常高。因?yàn)橛邢逘顟B(tài)系統(tǒng)不能模擬某些遞歸規(guī)則,它們只好以效率來(lái)彌補(bǔ)覆蓋面的不足。但這里只說(shuō)明怎樣使用有限狀態(tài)自動(dòng)機(jī)來(lái)識(shí)別基本短語(yǔ)(basic phrase),如名詞短語(yǔ)、動(dòng)詞短語(yǔ)和地點(diǎn)詞等。下面是FASTUS基本短語(yǔ)識(shí)別器的輸出,當(dāng)然,究竟處理什么樣的基本短語(yǔ)依賴于具體的應(yīng)用要求。
這些基本短語(yǔ)是通過(guò)編寫(xiě)到轉(zhuǎn)錄機(jī)中的一些有限狀態(tài)規(guī)則產(chǎn)生出來(lái)的。為了具體說(shuō)明其工作的情況,我們從Appelt and Israel(1997)的FASTUS規(guī)則中抽出一個(gè)簡(jiǎn)化的集合,用這些簡(jiǎn)化的規(guī)則來(lái)探測(cè)名詞組(noun group)。名詞組是名詞短語(yǔ)的核心;一個(gè)名詞組包含中心名詞和左修飾語(yǔ)(限定詞、形容詞、數(shù)量修飾語(yǔ)、數(shù)詞等)。為了表達(dá)上的方便,我們使用帶有箭頭符號(hào)(→)的規(guī)則,這樣的規(guī)則看起來(lái)很像上下文無(wú)關(guān)規(guī)則的形式,但在實(shí)際情況下,這些規(guī)則被編為有限自動(dòng)機(jī),并沒(méi)有像上下文無(wú)關(guān)規(guī)則那樣來(lái)處理。
一個(gè)名詞組可以只包括一個(gè)代詞(she, him或 them),一個(gè)時(shí)間短語(yǔ)(yesterday)或一個(gè)日期:
NG → Pronoun | Time-NP | Date-NP
名詞組也可以只包含一個(gè)單獨(dú)使用的限定詞(this或that),或者包含一個(gè)中心名詞(HdNns),這個(gè)中心名詞前面可以有隨選的限定詞短語(yǔ)(DETP)和/或隨選的形容詞(Adjs)(the quick and dirty solution, the frustrating mathematics problem),或者包含一個(gè)由動(dòng)名詞短語(yǔ)修飾的中心名詞(the rising index ):
NG → (DETP) (Adjs) Hd Nns | DETP Ving HdNns
| DETP-CP (and HdNns)
上面的括號(hào)用來(lái)表示隨選的成分,同時(shí)括號(hào)也可以用來(lái)表示組合。限定詞短語(yǔ)有兩個(gè)變體:
DETP → DETP-CP | DETP-INCP
完全限定詞短語(yǔ)(DETP-CP)能夠單獨(dú)作為NP使用,諸如only five, another three, this, many, hers, all 和the most。Adv-pre-num是那些在限定詞短語(yǔ)中可以出現(xiàn)在數(shù)詞之前的副詞(almost 5, precisely5 )。Pro-Poss-cp是可以單獨(dú)像一個(gè)完全的NP那樣使用的主有代詞(mine或his)。數(shù)量修飾語(yǔ)(Quantifiers, 簡(jiǎn)寫(xiě)為Q)包括many, few和much等。
DETP-CP → ({Adv-pre-num|“another"|
{ Det | Pro-Poss } ({Adv-pre-num | only (“other)})}) Number
|Q|Q-er|(the") Q-est| another| Det-cp| DetQ|Pro-Poss-cp