- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
我們已經(jīng)知道了怎樣建立一個Viterbi解碼器,Viterbi解碼器怎樣采用三個輸入(觀察概率、HMM詞表和N元語法的語言模型),并產(chǎn)生出概率最大的單詞符號串。其中,觀察概率是通過高斯估計或MLP估計從聲譜特征得到的。但是,我們還不知道怎樣來訓(xùn)練概率模型,以建立一個語音識別系統(tǒng)。
此文將扼要地介紹大多數(shù)ASR系統(tǒng)使用的嵌入訓(xùn)練(embedded training)過程,不考慮這些系統(tǒng)是基于高斯模型的,基于MLP的,還是基于矢量量化的。首先,為了訓(xùn)練一個基本的語音識別系統(tǒng),我們需要的概率模型共有4個:
● 語言模型概率 P(WilWi-1,Wi-2)
● 觀察似然度 bj(Ot)
● 轉(zhuǎn)移概率 aij
● 發(fā)音詞表 HMM狀態(tài)圖結(jié)構(gòu)
為了訓(xùn)練語音識別系統(tǒng)中的這些組成部分,一般來說需要有:
● 一個帶有單詞轉(zhuǎn)寫的語音聲波文件的訓(xùn)練語料庫
● 一個用于訓(xùn)練語言模型的大規(guī)模文本語料庫,這個語料庫中應(yīng)該包含來自語音語料庫的單詞轉(zhuǎn)寫以及其他許多類似的文本
● 通常還需要一個小規(guī)模的、用于訓(xùn)練的語音語料庫,這個語料庫要有語音標(biāo)記(也就是說,聲學(xué)信號的框架要手工進(jìn)行音位標(biāo)注)
讓我們從N元語法的語言模型開始。對大規(guī)模語料庫中N元語法的出現(xiàn)單位進(jìn)行計數(shù),然后對這些計數(shù)進(jìn)行平滑化和歸一化。用于訓(xùn)練語言模型的語料庫一般比用于訓(xùn)練HMM參數(shù)a和b的語料庫的規(guī)模大得多。這是因為,訓(xùn)練語料庫越大,模型的精確度越高。由于N元語法模型訓(xùn)練起來比訓(xùn)練HMM觀察概率快,又由于文本需要的空間比語音需要的空間少,實踐證明,使用5000萬單詞的大型語料庫來訓(xùn)練語言模型是可行的。在一般情況下,用于訓(xùn)練HMM參數(shù)的語料庫也是語言模型數(shù)據(jù)的一部分;重要的是保持聲學(xué)模型和語言模型的一致性。