- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
如果我們對于每匹馬的概率估計(jì)都是一樣的,情況將如何呢?前面我們已經(jīng)看到,如果對于每匹馬都使用等長的二進(jìn)制編碼,每匹馬都用3比特來編碼,因此平均的比特?cái)?shù)為3。這時的熵是一樣的嗎?是的,在這種情況下,每匹馬的估計(jì)概率都是1/8。我們選擇馬的熵是這樣計(jì)算的:
這個值稱為困惑度。從直覺上,我們可以把困惑度理解為在隨機(jī)實(shí)驗(yàn)中選擇隨機(jī)變量的加權(quán)平均數(shù)。因此,在等概率估計(jì)的8匹馬之間進(jìn)行選擇時(這時熵H=3比特),困惑度是23,也就是8。在概率有差異的8匹馬之間進(jìn)行選擇時(這時熵H=2比特),困惑度是22,也就是4。
前面計(jì)算的是單個變量的熵。然而,我們在很多場合需要計(jì)算序列的熵。例如,對于一個語法來說,我們需要計(jì)算單詞的序列W={…W0.W1,W2,…,Wn.}的熵。我們的辦法之一是讓變量能夠覆蓋單詞的序列。例如,我們可以計(jì)算在語言L中長度為n的單詞的一切有限序列的隨機(jī)變量的熵。
計(jì)算公式如下:
我們可以把熵率(entropy rate)定義為用單詞數(shù)來除這個序列的熵所得的值(我們也可以把熵率想像成每個單詞的熵):
但是,為了計(jì)算一個語言的真正的熵,我們需要考慮無限長度的序列。如果我們肯把語言想像成產(chǎn)生單詞序列的隨機(jī)過程L,那么它的熵率H(L)可定義為:
Shannon-McMillan-Breiman定理(Algoet and Cover,1988;Cover and Thomas,1991)指出, 如果語言在某種意義上是正則的(確切地說,如果語言既是平穩(wěn)的又是遍歷的),那么有:
這意味著,我們可以取語言中一個足夠長的序列來替代該語言中所有可能的序列的總和。Shannon-McMillan-Breiman定理的直覺解釋是:一個足夠長的單詞序列可以在其中包含其他很多較短的序列,而且每個這樣的較短的序列都可以按照它們各自的概率重復(fù)出現(xiàn)在較長的序列中。
如果隨著時間的推移,隨機(jī)過程指派給序列的概率不變,則可以認(rèn)為這個隨機(jī)過程是平穩(wěn)的。換言之,在平穩(wěn)隨機(jī)過程中,單詞在時間t的概率分布與在時間t+1的概率分布是相同的。馬爾可夫模型以及N元語法的概率分布都是平穩(wěn)的。例如,在二元語法中,P只依賴于P,因此如果把時間的索引號移動到X,Pi+x仍然依賴于Pi+x-l。然而自然語言卻不是平穩(wěn)的,在自然語言中,下一個單詞的概率可能依賴于任意距離的事件并且依賴于時間。所以,我們的統(tǒng)計(jì)模型對于自然語言的正確分布和熵的描述都是近似的。
最后,使用這種盡管不正確但卻非常方便的簡單假設(shè),我們就能夠取一個很長的輸出樣本來計(jì)算某個隨機(jī)過程的熵,并且計(jì)算它的平均對數(shù)概率。
責(zé)任編輯:admin