- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
一個特定的剖析T的概率定義為在該剖析樹中用來展開每個結點n的所有規(guī)則r的概率的乘積:
作為結果的概率P(T,S)既是剖析和句子的聯(lián)合概率,又是剖析P(T) 的概率。怎樣證實這個公式的正確性呢?
首先,根據(jù)聯(lián)合概率的定義有:
P(T,S) = P(T) P(SIT) (12.3)
但是,因為剖析包含了句子中的所有單詞,所以P(SIT)等于1。因此有:
P(T,S) = P(T)P(S|T) = P(T) (12.4)
圖2中的每個剖析樹的概率的計算,只要把在推導中使用的每個規(guī)則概率相乘就可以得到計算結果。側如,圖12.2(a)中左側的剖析樹(稱為T)的概率以及圖12.2(b)中右側的剖析樹(稱為T,)的概率可以計算如下:
我們可以看出,在圖12.2(b)中右側的剖析樹具有比較高的概率。如果歧義消解算法選擇具有最大PCFG概率的剖析,那么這個剖析便可以通過這樣的歧義消解算法選擇正確結果。
可以看出,選擇具有最大概率的剖析是進行歧義消解的正確方法?,F(xiàn)在,讓我們把這樣的直覺加以形式化。歧義消解算法在句子S的剖析樹集合(我們稱之為τ(S))中選擇對于這個句子S的最佳的樹作為剖析結果。我們想得到的是對于給定的句子S的最佳剖析樹T。
根據(jù)定義,概率P(TIS)可以改寫為P(T,S)/P(S),這樣可以得出:
因為我們要最大限度地考慮同一個句子可能有的一切剖析樹,所以對于每個樹,P(S)將是一個常數(shù),我們可以刪除它,得到:
還有,由于我們曾經(jīng)說明P (T, S)= P(T),所以選擇最佳剖析的最后的等式巧妙地簡化為選擇具有最大概率的剖析:
PCFG的另一個特性是它可以給構成句子的單詞符號串指派一個概率。在語音識別、拼寫檢查和增強通信中,這個特性對于語言建模(language modeling)有重要意義。非歧義句子的概率等于P(T,S)=P(T),或者說這個概率恰好是該句子的單個剖析樹的概率。歧義句子的概率等于該句子所有剖析樹的概率之和:
PCFG對語言建模的另一個有用特征是它可以給句子中的子符號串指派一個概率。例如,Jelinek and Lafferty(1991)提出了能夠有效計算一個句子前面部分(prefix)的概率的算法。這個概率也就是語法生成句子的初始子符號串為w1,w2…wi,的概率。Stolcke(1995)說明了怎樣把標準的Earley算法提升到能夠計算這些句子前面部分的概率,Jurafsky et al.(1995)描寫了采用這種算法作為語言模型在語音識別中的應用。
在一個PCFG中,如果一種語言的所有句子的概率之和為1,就可以說這個PCFG是堅固的(consistent)。有些遞歸規(guī)則會引起語法變得不堅固,因為這時它對某些句子要進行無限循環(huán)的推導。例如,概率為1的規(guī)則S→S將會導致概率量的喪失,因為推導永遠不會終止。關于堅固語法和非堅固語法的詳細情況,可以參閱Booth and Thompson(1973)。
責任編輯:admin