當(dāng)前位置：首頁 > 機(jī)翻技術(shù) > 機(jī)器翻譯 > 正文

簡單的（非平滑的）N元語法應(yīng)用于選詞

發(fā)布時間： 2022-07-11 09:29:19 作者：etogether.net 來源：網(wǎng)絡(luò) 瀏覽次數(shù)：

除了圖6.2的表中的概率之外，我們的語法還包括如圖6.3所示的二元語法概率（是一個特殊的單詞，它的意思是“句子的開始”）。

圖6.3.png

圖6.3 Berkeley Restaurant Project中關(guān)于二元語法的更多片斷

現(xiàn)在我們可以計算句子I want to eat British food或句子I want to eat Chinese food的概率了，計算時只要把相鄰兩個單詞的二元語法概率相乘即可，如下所示：

P(I want to eat British food) = P(Il )P(wantlI)P(tolwant)

P(eatlto)P(Britishleat)

P(foodIBritish)

=0.25*0.32*0.65*0.26*0.002*0.60

=0.000016

我們可以看出，由于概率都小于1（根據(jù)概率的定義），相乘的概率越多，所有概率的乘積就越小，這樣就會有數(shù)值下溢的危險。如果要計算一個相當(dāng)長的符號串的概率（例如，一段文字或者一篇文件），習(xí)慣上就采用對數(shù)空間來進(jìn)行計算，我們給每個概率取對數(shù)（稱為對數(shù)概率logprob），把所有的對數(shù)相加（因為在對數(shù)空間中的加與在線性空間中的乘是等價的），然后再取結(jié)果的反對數(shù)。由于這個原因，事實上已經(jīng)存儲了很多關(guān)于N元語法的標(biāo)準(zhǔn)算法，并且所有概率都是用對數(shù)概率來計算的。在這段文本中，我們?nèi)〉膶?shù)都是以2為底數(shù)的（也就是說，我們用log來表示log2）。

三元語法模型與二元語法模型相同，不過這時要用前面兩個單詞作為條件。例如，用P(foodleat British)來替代P(foodI British)。為了計算每個句子開頭的三元語法概率，可以使用兩個假想的單詞（pseudo-word）作為三元語法的條件，即P(I1

句子開頭的假想的單詞。

N元語法模型可以使用訓(xùn)練語料庫和歸一化的方法得到。對于概率模型來說，所謂歸一化（normalizing），就是用某個總數(shù)來除，使最后得到的概率的值處于0和1之間，以保持概率的合法性。我們?nèi)∧硞€訓(xùn)練語料庫，從這個語料庫中取某個特定的二元語法的計數(shù)（即出現(xiàn)次數(shù)），然后用第一個單詞相同的二元語法的總數(shù)作為除數(shù)來除這個計數(shù)：

6.10.png

我們可以把這個等式加以簡化，因為以給定單詞w n-1，開頭的所有二元語法的計數(shù)必定等于該單詞w n-1的一元語法的計數(shù)。讀者可以想一想以便確信這樣的結(jié)論。

6.11.png

對于一般的N元語法，參數(shù)估計為：

6.12.png

在式（6.12）中，用前面第一個單詞的觀察頻度來除這個特定單詞序列的觀察頻度，就可以得到N元語法概率的估計值。這個比值稱為相對頻度（relative frequency）。在最大似然估計（Maximum Likelihood Estimation, 簡稱MLE）技術(shù)中，相對頻度是概率估計的一種方法，因為對于給定的模型M來說，最后算出的參數(shù)集能使訓(xùn)練集T的似然度，即P（TIM)達(dá)到最大值。例如，在容量為1000000個單詞的Brown語料庫中，假定單詞Chinese出現(xiàn)了400次。那么，在另一個容量為1 000 000個單詞的文本中，單詞Chinese的出現(xiàn)概率是多少呢？MLE可以估計出，其概率也是400/1000000或0.0004?，F(xiàn)在，0.0004并不是在一切情況下單詞Chinese出現(xiàn)的概率估計值，但這個概率能使我們估計出，在容量為1 000000個單詞的語料庫中，Chinese這個單詞最可能出現(xiàn)的次數(shù)大約是400次。

除了使用相對頻度來估計N元語法概率的方法之外，還有更好的方法。但是，在其他方法中，使用相對頻度這種思路的算法復(fù)雜得多。圖6.4是從

Berkeley Restaurant Project中得到的一個二元語法的某些二元語法計數(shù)。注意，大多數(shù)的計數(shù)為零。實際上，我們選擇這7個單詞樣本時已經(jīng)設(shè)法盡量使它們彼此接應(yīng)得比較好；如果隨機(jī)地選擇7個單詞，數(shù)據(jù)將更加稀疏。

圖6.4.png

圖6.4 在Berkeley Restaurant Project 語料庫（容量約為10 000個句子）中，從1616個單詞的“型”中選出7個單詞的二元語法計數(shù)

圖6.5是經(jīng)過歸一化之后的二元語法概率（用下列每個單詞相應(yīng)的一元語法計數(shù)來除各自的二元語法計數(shù)）。

I 3437

want 1215

to 3256

eat 938

Chinese 213

food 1506

lunch 459

7個單詞的二元語法概率如下：

圖6.5.png

圖6.5 在Berkeley Restaurant Project語料庫（容量約為10 000個句子）中，從1616個單詞的“型”中，選出7個單詞的二元語法概率

責(zé)任編輯：admin

[上一頁][1] [2] [3] 【歡迎大家踴躍評論】

上一篇：上下文有關(guān)的錯拼更正算法
下一篇：拼寫錯誤檢查算法的文獻(xiàn)和歷史說明

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

簡單的（非平滑的）N元語法應(yīng)用于選詞

相關(guān)機(jī)器翻譯技術(shù)文章

免費在線翻譯

翻譯機(jī)

外語書籍

行業(yè)文章

人工翻譯