- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
使用概率來模擬發(fā)音變異可以增強(qiáng)手寫規(guī)則的效率。Riley(1991)和Withgott and Chen(1993) 提出了另一種手工書寫規(guī)則的方法,這種方法被證明是很有用的。這種方法使用決策樹(decision tree),特別是使用一種分類回歸樹(Classification and Regression Tree,簡稱CART),從標(biāo)注語料庫中自動推導(dǎo)出詞匯到表層發(fā)音的映射關(guān)系(Breiman et al.,1984)。決策樹提取由特征集所描述的情況,并把這種情況分類為范疇和相關(guān)的概率。在發(fā)音問題研究中,可以訓(xùn)練決策樹來提取一個詞匯音子和它的各種上下文特征(包圍的音子、重音、音節(jié)結(jié)構(gòu)信息以及詞匯的等同性),并選擇一個適合的表層音子來實現(xiàn)它。我們可以把在前面的錯拼更正中使用的含混矩陣看成是一種蛻化的決策樹,因此替代矩陣取一個詞匯音子作為輸入,然后輸出在潛在的表層音子中的一個概率分布來替代這個詞匯音子。決策樹的優(yōu)點是它可以從標(biāo)注語料庫中自動推導(dǎo)出來,而且都很精確。決策樹只提取相關(guān)的特征,所以數(shù)據(jù)稀疏問題比含混矩陣少一些,因為含混矩陣要以每個相鄰的音子作為條件。
例如,圖1是根據(jù)Switchboard語料庫得出的關(guān)于音位/t/發(fā)音的一個決策樹。這個決策樹不包括閃音化(閃音化由另外的決策樹來描述),但是它模擬/t/在輔音前比在元音前更可能脫落的事實。注意,實際上這個決策樹自動推導(dǎo)出了元音類和輔音類。另外還要注意,如果/t/沒有在一個輔音前面脫落,它就很可能是沒有除阻的。最后還要注意,/t/很容易在音節(jié)頭的位置脫落。
對于發(fā)音的決策樹模型有興趣的讀者,可以參閱Riley(1991)和Withgott and Chen(1993),也可以參閱關(guān)于決策樹的導(dǎo)論性教材,如Russell and Norvig(1995)。
圖1
圖1 根據(jù)Switchboard語料庫得出的關(guān)于音位/t/發(fā)音的經(jīng)過手工修剪的決策樹(由Eric Fosler-Lussier提供)。這個特殊的決策樹沒有模擬閃音化,因為閃音已經(jīng)在詞典中列出了。這個決策樹能夠自動推導(dǎo)出元音和輔音范疇。我們在每個葉子結(jié)點上只列出了最可能的實現(xiàn)情況。
責(zé)任編輯:admin