- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
由于概率上下文無關語法是上下文無關語法的自然擴充,這樣的語法在概率估計方面會出現(xiàn)一些問題。正因為這些問題,所以當前大多數(shù)概率剖析模型都使用某些增強了的PCFG,而不使用普通的PCFG。在此,總結PCFG在模擬結構依存(structural dependency)和模擬詞匯依存(lexical dependency)中的問題。
PCFG的一個問題來自基本的獨立性假設(independence assumption)。根據(jù)定義,CFG假定任何一個非終極符號的展開與任何其他非終極符號的展開是獨立的。這種獨立性假設也帶到了PCFG中;每個PCFG規(guī)則被假定為獨立于其他每個規(guī)則,這樣,規(guī)則的概率才能相乘。然而,英語句法統(tǒng)計檢查的結果說明,有時一個結點展開的選擇取決于該結點發(fā)在剖析樹中的位置。例如,我們來研究代詞與實詞名詞短語在句子中的不同位置的分布情況。從Kuno(1972)開始,很多語言學家指出,在英語中(在很多其他語言中也是如此)存在著一個強烈的傾向:一個句子的句法主語往往是代詞(Givon,1990)。代詞是談論舊信息的一種手段,而非代詞(實詞性)的名詞或名詞短語往往用
來引入新信息。例如,F(xiàn)rancis等人指出,在Switchboard語料庫的31021個陳述句的主語中,91%都是代詞,參見例句(12.15a),只有9%是實詞性的名詞或名詞短語,參見例句(12.15b)。反之,在7489個賓語中,只有34%是代詞,參見例句(12.16a),而66%是實詞性的名詞或名詞短語,參見例句(12.16b)。
(a) She's able to take her baby to work with her. (12.15)
(b) Uh, my wife worked until we had a family.
(a) Some laws absolutely prohibit it. (12.16)
(b) All the people signed confessions.
通過規(guī)則NP→Pronoun,我們可以把NP展開為代詞,通過規(guī)則NP→Det Noun,我們可以把NP展開為實詞性名詞或名詞短語。如果NP展開為代詞對應于NP展開為實詞性名詞或名詞短語的概率取決于NP究竟是主語還是賓語,那么,我們就可以捕捉到這樣的依存關系,然而這種概率依存關系恰恰是PCFG所不允許的。
PCFG更重要的問題是這種語法缺乏對單詞的敏感性。PCFG中的詞匯信息只能通過前終極結點(Verb, Noun, Det)展開為單詞的概率來表示。但是,還有一些其他詞匯依存關系對于句法概率的模擬也很重要。例如,一些研究者指出,在選擇有歧義的介詞短語附著的正確剖析時,詞匯信息就起著重要作用(Ford et al.,1982; Whittemore et al.,1990; Hindle and Rooth,1991;et al.)。我們來 研究來自Hindle and Rooth(1991)的例子:
Moscow sent more than 100, 000 soldiers into Afghanistan .…. (12.17)