把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 機(jī)器翻譯 > 正文

簡單的(非平滑的)N元語法應(yīng)用于選詞

發(fā)布時間: 2022-07-11 09:29:19   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):



除了圖6.2的表中的概率之外,我們的語法還包括如圖6.3所示的二元語法概率(是一個特殊的單詞,它的意思是“句子的開始”)。

圖6.3.png


圖6.3 Berkeley Restaurant Project中關(guān)于二元語法的更多片斷


現(xiàn)在我們可以計算句子I want to eat British food或句子I want to eat Chinese food的概率了, 計算時只要把相鄰兩個單詞的二元語法概率相乘即可,如下所示:


P(I want to eat British food) = P(Il )P(wantlI)P(tolwant)

P(eatlto)P(Britishleat)

P(foodIBritish)

=0.25*0.32*0.65*0.26*0.002*0.60

=0.000016


我們可以看出,由于概率都小于1(根據(jù)概率的定義),相乘的概率越多,所有概率的乘積就越小,這樣就會有數(shù)值下溢的危險。如果要計算一個相當(dāng)長的符號串的概率(例如,一段文字或者一篇文件),習(xí)慣上就采用對數(shù)空間來進(jìn)行計算,我們給每個概率取對數(shù)(稱為對數(shù)概率logprob),把所有的對數(shù)相加(因為在對數(shù)空間中的加與在線性空間中的乘是等價的),然后再取結(jié)果的反對數(shù)。由于這個原因,事實上已經(jīng)存儲了很多關(guān)于N元語法的標(biāo)準(zhǔn)算法,并且所有概率都是用對數(shù)概率來計算的。在這段文本中,我們?nèi)〉膶?shù)都是以2為底數(shù)的(也就是說,我們用log來表示log2)。


三元語法模型與二元語法模型相同,不過這時要用前面兩個單詞作為條件。例如,用P(foodleat British)來替代P(foodI British)。為了計算每個句子開頭的三元語法概率,可以使用兩個假想的單詞(pseudo-word)作為三元語法的條件,即P(I1

句子開頭的假想的單詞。


N元語法模型可以使用訓(xùn)練語料庫和歸一化的方法得到。對于概率模型來說,所謂歸一化(normalizing),就是用某個總數(shù)來除,使最后得到的概率的值處于0和1之間,以保持概率的合法性。我們?nèi)∧硞€訓(xùn)練語料庫,從這個語料庫中取某個特定的二元語法的計數(shù)(即出現(xiàn)次數(shù)),然后用第一個單詞相同的二元語法的總數(shù)作為除數(shù)來除這個計數(shù):


6.10.png


我們可以把這個等式加以簡化,因為以給定單詞w n-1,開頭的所有二元語法的計數(shù)必定等于該單詞w n-1的一元語法的計數(shù)。讀者可以想一想以便確信這樣的結(jié)論。


6.11.png


對于一般的N元語法,參數(shù)估計為:


6.12.png


在式(6.12)中,用前面第一個單詞的觀察頻度來除這個特定單詞序列的觀察頻度,就可以得到N元語法概率的估計值。這個比值稱為相對頻度(relative frequency)。在最大似然估計(Maximum Likelihood Estimation, 簡稱MLE)技術(shù)中,相對頻度是概率估計的一種方法,因為對于給定的模型M來說,最后算出的參數(shù)集能使訓(xùn)練集T的似然度,即P(TIM)達(dá)到最大值。例如,在容量為1000000個單詞的Brown語料庫中,假定單詞Chinese出現(xiàn)了400次。那么,在另一個容量為1 000 000個單詞的文本中,單詞Chinese的出現(xiàn)概率是多少呢?MLE可以估計出,其概率也是400/1000000或0.0004?,F(xiàn)在,0.0004并不是在一切情況下單詞Chinese出現(xiàn)的概率估計值,但這個概率能使我們估計出,在容量為1 000000個單詞的語料庫中,Chinese這個單詞最可能出現(xiàn)的次數(shù)大約是400次。


除了使用相對頻度來估計N元語法概率的方法之外,還有更好的方法。但是,在其他方法中,使用相對頻度這種思路的算法復(fù)雜得多。圖6.4是從

Berkeley Restaurant Project中得到的一個二元語法的某些二元語法計數(shù)。注意,大多數(shù)的計數(shù)為零。實際上,我們選擇這7個單詞樣本時已經(jīng)設(shè)法盡量使它們彼此接應(yīng)得比較好;如果隨機(jī)地選擇7個單詞,數(shù)據(jù)將更加稀疏。


圖6.4.png


圖6.4 在Berkeley Restaurant Project 語料庫(容量約為10 000個句子)中,從1616個單詞的“型”中選出7個單詞的二元語法計數(shù)


圖6.5是經(jīng)過歸一化之后的二元語法概率(用下列每個單詞相應(yīng)的一元語法計數(shù)來除各自的二元語法計數(shù))。

I               3437

want        1215

to            3256

eat           938

Chinese    213

food        1506

lunch       459


7個單詞的二元語法概率如下:


圖6.5.png


圖6.5 在Berkeley Restaurant Project語料庫(容量約為10 000個句子)中,從1616個單詞的“型”中,選出7個單詞的二元語法概率



責(zé)任編輯:admin



微信公眾號

[上一頁][1] [2] [3] 【歡迎大家踴躍評論】
我來說兩句
評論列表
已有 0 條評論(查看更多評論)