- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
經(jīng)常會出現(xiàn)兩個不同的單詞,其拼寫形式相同而發(fā)音不同(它們稱為同形詞[homograph])。例如,動詞wind(“You need to wind this up more neatly”)的發(fā)音為[wa?nd],而名詞wind(“blow, blow,thou winter wind”)的發(fā)音為[wind]。這個問題在TTS的應用中是非常關(guān)鍵的(因為在一定的上下文中,系統(tǒng)必須判斷究竟應該讀這兩個不同的發(fā)音中的哪一個),不過,在當前的語音識別系統(tǒng)中,由于某些原因一般會忽略同形詞的問題。書面印刷的發(fā)音詞典對于不同的詞類都要給出不同的發(fā)音,CELEX在這方面做得很好,因為CELEX的發(fā)音詞典是為ASR設(shè)計的。在
Pronlex和CMU的發(fā)音詞典中,對于wind給出了兩種不同的發(fā)音,但沒有說明什么詞類用什么樣的發(fā)音。
發(fā)音詞典中通常沒有收錄很多專有名詞。在很多實際應用中這是一個很嚴重的問題。Liberman and Church(1992)曾經(jīng)報告過,在3300萬詞的AP新聞語料庫中,有21%的詞是專有名詞。接著,Liberman和Church公布了一個專有名詞的詞表,包含1987年從Donnelly市場組織收集的150萬個專有名詞(覆蓋了美國的7200萬個家庭)。但是,在CELEX(它是根據(jù)傳統(tǒng)詞典編纂的)發(fā)音詞典的52477個原形詞中,只有1000個專有名詞。與之對比的是Pronlex, Pronlex包含兩萬個專有名詞,這只是150萬個詞中的一小部分。只有很少的詞典給出Dr. 這樣的詞條的發(fā)音,Liberman and Church (1992) 指出,Dr. 的發(fā)音可以為doctor或drive,2/3的發(fā)音可以為two thirds,F(xiàn)ebruary third或 two slash three。
現(xiàn)有的發(fā)音詞典還沒有很好的模型來處理虛詞(and,l,a和of等)的發(fā)音。這是因為這些虛詞的發(fā)音變化的語音上下文環(huán)境很復雜。一般在發(fā)音詞典中只包含某些最基本的形式(例如the的發(fā)音為[ei]),再使用其他算法根據(jù)上下文推出它的發(fā)音變體。
TTS和ASR發(fā)音詞典的一個最重要的區(qū)別在于,TTS的發(fā)音詞典不需要表示方言的變體;例如,在非常精確的ASR的發(fā)音詞典中,需要表示either和tomato的不同發(fā)音,而在TTS的發(fā)音詞典中,只要選擇不同發(fā)音中的一個發(fā)音就可以了。
責任編輯:admin