- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
為什么要關心英語的熵呢?第一個原因是英語的真正的熵將為我們將來對概率語法的試驗提供一個可靠的下界。另一個原因是我們可以利用英語的熵值幫助理解語言中的哪一部分提供的信息最大。例如,判斷英語的預測能力主要依賴于詞序、語義、形態(tài)、組成成分還是語用線索。這樣可以在很大程度上幫助我們了解語言模型應該著重研究哪一方面。
計算英語熵值的方法通常有兩種。第一種方法是Shannon(1951)使用的方法,這是Shannon在信息論領域的開創(chuàng)性工作的一部分,其思路是利用受試人來構造一個信息試驗,要求受試人來猜測字母,觀察猜測的字母中有多少是正確的,從而估計字母的概率,然后估計序列的熵值。
實際的試驗是這樣來設計的:我們給受試人看一個英語文本,然后要求受試人猜測下一個字母。受試人利用他們的語言知識來猜測最可能出現(xiàn)的字母,然后猜測下一個最可能的字母,依次類推。我們把受試人猜對的次數(shù)記錄下來。Shannon指出,猜測數(shù)序列的熵與英語的熵是相同的。其
直覺解釋是:如果受試人進行n個猜測,那么,給定猜測數(shù)序列,我們能夠通過選擇第n個最可能的字母的方法,重建原來的文本。這樣的方法要求猜字母而不是猜單詞(因為受試人有時必須對所有的字母進行窮盡的搜索),所以Shannon計算的是英語中每個字母的熵,而不是英語中每個單詞的熵。他報告的結果是:英語字母的熵是1.3比特(對于27個字母而言,包括26個字母以及空白)。Shannon 的這個估值太低了一些,因為他是根據(jù)單篇的文本(Dumas Malone的Jefferson the Virginian)來進行試驗的。Shannon還注意到,對于其他的文本(例如新聞報道、科學著作和詩歌),他的受試人往往會猜錯(因此這時的熵比較高)。最近有人模仿Shannon做了類似的試驗,他們以賭場為例,讓受試人對下一個出現(xiàn)的字母打賭(Cover and King,1978;Cover and Thomas,1991)。
第二種計算英語的熵的方法有助于避免導致Shannon結果失誤的單篇文本的問題。這個方法使用一個很好的隨機模型,在一個很大的語料庫上訓練這個模型,用它給一個很長的英語序列指派一個對數(shù)概率,計算時使用Shannon-McMillan-Breiman定理:
例如,Brown et al.(1992)在58300萬單詞的英語文本上(293181個“型”)訓練了一個三元語法模型,用它來計算整個Brown語料庫的概率(1014312個“例”)。訓練數(shù)據(jù)包括新聞、百科全書、小說、官方通信、加拿大議會論文集以及其他各種資源。
然后,他們使用詞的三元語法給Brown語料庫指派概率,把語料庫看成是一個字母序列,從而計算Brown語料庫的字符的熵。他們得到的結果是:每個字符的熵為1.75比特(這里的字符集包含了95個可印刷的全部ASCII字符)。
根據(jù)報告,英語書面文本中單詞(包括空白)的平均長度是5.5個字符(Nadas,1984)。如果這個報告的數(shù)值是正確的,就意味著在普通的英文中,Shannon估計的每個字母的熵為1.3比特將對應于每個單詞的困惑度為142。前面報告的WSJ試驗的困惑度數(shù)值明顯低于這個數(shù)值,其原因在于訓練集和測試集都來自英語的同樣的子樣本。這樣就表明這個試驗低估了英語的復雜性,因為華爾街日報看起來確實很不像莎士比亞的著作。
責任編輯:admin