- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
概率模型是給單詞的符號(hào)串指派概率的方法,不論是計(jì)算整個(gè)句子的概率,還是在一個(gè)序列中預(yù)測(cè)下一個(gè)單詞的概率,都要使用概率模型。最簡(jiǎn)單的單詞序列的概率模型是單純地假定語(yǔ)言中的任何一個(gè)單詞后面可以跟隨該語(yǔ)言中的任何一個(gè)單詞。在這種理論的一個(gè)概率版本中,假定任何一個(gè)單詞后面可能跟隨的該語(yǔ)言中的任意其他單詞的概率是相等的。如果英語(yǔ)中有100000個(gè)單詞,那么任何一個(gè)單詞后面跟隨其他任何單詞的概率將是1/100000,即0.00001。
在稍微復(fù)雜一些的單詞序列模型中,任何一個(gè)單詞后面可以跟隨著其他任何單詞,但后面一個(gè)單詞要按照它正常的頻度來(lái)出現(xiàn)。例如,單詞the的頻度相對(duì)比較高,在1000000個(gè)單詞的Brown語(yǔ)料庫(kù)中它出現(xiàn)69971次(也就是說(shuō),在這個(gè)特定的語(yǔ)料庫(kù)中,有7%的單詞是the)。相比之下,單詞rabbit在Brown語(yǔ)料庫(kù)中只出現(xiàn)11次。
我們可以根據(jù)這樣的相對(duì)頻度對(duì)下面將要出現(xiàn)的單詞指派一個(gè)概率分布的估值。這樣,如果我們看到了任何符號(hào)串,就可以指派概率0.07給the,指派概率0.00001給rabbit,從而猜測(cè)下面一個(gè)單詞。例如,假定我們看到了如下的符號(hào)串:
Just then, the white
在這個(gè)上下文中,跟隨著單詞white之后,rabbit似乎是一個(gè)比the更合理的單詞。這說(shuō)明,我們不是簡(jiǎn)單地看單詞的單獨(dú)相對(duì)頻度,而是要看單詞對(duì)于給定的前面一個(gè)單詞的條件概率。也就是說(shuō),當(dāng)前面是單詞white時(shí)rabbit的概率(我們把這個(gè)條件概率表示為P(rabbitlwhite))要高于當(dāng)前面是其他單詞時(shí)rabbit的概率。
根據(jù)這樣的直覺(jué),讓我們來(lái)研究怎樣計(jì)算一個(gè)完整的單詞串的概率(我們把這個(gè)單詞串表示為w1…w n,或者表示為w??)。如果把每個(gè)單詞在它本身的位置的出現(xiàn)看成一個(gè)獨(dú)立事件,就可以把這種概率表示如下:
我們也可以使用概率的鏈?zhǔn)揭?guī)則來(lái)分解這個(gè)概率:
然而,我們?cè)鯓硬拍苡?jì)算出概率 呢?當(dāng)前面給定的單詞序列很長(zhǎng)時(shí),我們不知道用什么簡(jiǎn)單方法來(lái)計(jì)算這時(shí)一個(gè)單詞的概率是多少。例如,我們不能在一個(gè)很長(zhǎng)的符號(hào)串之后,計(jì)算每個(gè)單詞的出現(xiàn)次數(shù),這時(shí)需要非常大的語(yǔ)料庫(kù)。
我們通過(guò)一個(gè)有用的簡(jiǎn)化方法來(lái)解決這個(gè)問(wèn)題:對(duì)于給定的前面的所有單詞來(lái)逼近一個(gè)單詞的概率。我們使用的逼近方法很簡(jiǎn)單:只需要計(jì)算當(dāng)前面給定的單詞只是一個(gè)單獨(dú)的單詞時(shí),單詞的概率是多少!這樣的“二元語(yǔ)法模型”(bigram model)通過(guò)前面一個(gè)單詞的條件概率來(lái)逼近前面給定的所有單詞的概率P(w nlw n-1)。換言之,我們不是計(jì)算概率
P (rabbit|Just the other day I saw a)
而是使用如下的概率來(lái)逼近這個(gè)概率:
P(rabbit|a)
一個(gè)單詞的概率只依賴(lài)于它前面單詞的概率的這種假設(shè)稱(chēng)為馬爾可夫假設(shè)。馬爾可夫模型是一種概率模型,假設(shè)不必查看很遠(yuǎn)的過(guò)去就可以預(yù)見(jiàn)到某個(gè)單位將來(lái)的概率。馬爾可夫鏈時(shí)就已經(jīng)知道了這個(gè)術(shù)語(yǔ)的這種用法。我們?cè)?jīng)說(shuō)過(guò),馬爾可夫鏈?zhǔn)且环N加權(quán)有限狀態(tài)自動(dòng)機(jī);在馬爾可夫鏈中,馬爾可夫這個(gè)術(shù)語(yǔ)的直覺(jué)含義就是:加權(quán)FSA的下一個(gè)狀態(tài)總是依賴(lài)于它前面有限的歷史(因?yàn)樵谟邢拮詣?dòng)機(jī)中的狀態(tài)數(shù)目總是有限的)。基本的二元語(yǔ)法模型可以看成是每個(gè)單詞只有一個(gè)狀態(tài)的馬爾可夫鏈。