- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
模擬英語和其他自然語言成分結(jié)構(gòu)的最常用數(shù)學(xué)系統(tǒng)是上下文無關(guān)語法(Context-Free Grammar,簡稱CFG)。上下文無關(guān)語法又稱為短語結(jié)構(gòu)語法(Phrase-Structure Grammar),而它的形式化方法等價于Backus-Naur范式(Backus-Naur Form,簡稱BNF)。把一種語法建立在成分結(jié)構(gòu)基礎(chǔ)上的這種思想,可以追溯到心理學(xué)家Wilhelm Wundt(1900),但是直到Chomsky(1956)才把這種思想形式化,Backus(1959)也獨立地進(jìn)行了相同的工作。
一個上下文無關(guān)語法由一套規(guī)則(rule)或產(chǎn)生式(production)以及單詞和符號的一個詞表(lexicon)組成,每個規(guī)則表示語言中的符號的組成和排序方式。下面的產(chǎn)生式表示一個NP(或者名詞短語)可以由一個專有名詞(ProperNoun)組成,或者由一個限定詞(Det)后面跟著一個名詞性成分(Nominal)組成;一個名詞性成分可以是一個或多個名詞。
NP → Det Nominal (9.2)
NP → ProperNoun(9.3)
Nominal → Noun I Noun Nominal(9.4)
上下文無關(guān)規(guī)則可以按層級嵌套,所以前面的規(guī)則可以與下面的表示詞匯事實的規(guī)則結(jié)合起來:
Det→ a (9.5)
Det → the (9.6)
Noun → flight (9.7)
在CFG中所用的符號分為兩類。與語言中的單詞相對應(yīng)的符號(如the和nightclub)稱為終極符號(terminal symbol);詞表是引入這些終極符號的規(guī)則的集合。表示這些終極符號的聚類或概括性的符號稱為非終極符號(non-terminal)。在每個上下文無關(guān)規(guī)則中,箭頭(→)右邊的項是一個或者多個終極符號和非終極符號構(gòu)成的有序表,而箭頭的左邊是一個單獨的非終極符號,表示某種聚類或概括性。注意,在詞表中,與每個單詞相關(guān)聯(lián)的非終極符號是它們的詞類范疇,或者是稱為詞類。
通??梢园磧煞N方式來考慮CFG,把它想像成生成句子的裝置,或者把它想像成對于給定的句子指派結(jié)構(gòu)的裝置。作為句子的生成裝置,我們可以把“→”讀為“用右邊的符號串來重寫左邊的符號”。這樣,如果開始時的符號是
NP,
我們可以使用規(guī)則(9.2),把NP重寫為:
Det Nominal,
然后使用規(guī)則(9.4),繼續(xù)重寫為:
Det Noun,
最后,使用規(guī)則(9.5)和規(guī)則(9.7),重寫為:
a flight,
這時,我們說,符號串a(chǎn) flight可以從非終極符號NP推導(dǎo)(derived)出來。因此,CFG可以用來隨機(jī)地生成一系列的符號串。這種規(guī)則展開的序列稱為單詞符號串的一個推導(dǎo)(derivation)。通常我們用一個剖析樹(parse tree)來表示一個推導(dǎo)(一般是倒過來把樹的根置于上方)。圖1是表示上述推導(dǎo)的一個剖析樹。
CFG定義的形式語言是從指定的初始符號(start symbol)開始推導(dǎo)出來的符號串的集合。每個語法必須有一個指定的初始符號,這個初始符號通常稱為S,由于上下文無關(guān)語法通常用來定義句子,所以S通??梢越忉尀椤熬渥印保╯entence)。在某個簡化的英語語法中,由S推導(dǎo)出來的符號串的集合就是句子的集合。
現(xiàn)在,我們給語法增加幾個展開S的級別較高的規(guī)則以及幾個其他規(guī)則。其中一個規(guī)則用來表示一個句子可以由一個名詞短語和一個動詞短語構(gòu)成的事實:
S → NP VP I prefer a morning flight
英語中的一個動詞短語可以由一個動詞后面跟著有關(guān)的其他成分組成,有一種動詞短語可以由一個動詞后面跟著一個名詞短語組成:
VP → Verb NP prefer a morning flight
或者由動詞后面跟著一個名詞短語和一個介詞短語組成:
VP → Verb NP PP leave Boston in the morning
或者由動詞后面只跟著一個介詞短語組成:
VP → Verb PP leaving on Thursday
介詞短語一般由一個介詞后面跟著一個名詞短語組成。例如,在ATIS語料庫中最常見的介詞短語類型用于表示位置和方向:
PP → Preposition NP from Los Angeles