- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
我們已經(jīng)知道了怎樣建立一個(gè)Viterbi解碼器,Viterbi解碼器怎樣采用三個(gè)輸入(觀察概率、HMM詞表和N元語(yǔ)法的語(yǔ)言模型),并產(chǎn)生出概率最大的單詞符號(hào)串。其中,觀察概率是通過(guò)高斯估計(jì)或MLP估計(jì)從聲譜特征得到的。但是,我們還不知道怎樣來(lái)訓(xùn)練概率模型,以建立一個(gè)語(yǔ)音識(shí)別系統(tǒng)。
此文將扼要地介紹大多數(shù)ASR系統(tǒng)使用的嵌入訓(xùn)練(embedded training)過(guò)程,不考慮這些系統(tǒng)是基于高斯模型的,基于MLP的,還是基于矢量量化的。首先,為了訓(xùn)練一個(gè)基本的語(yǔ)音識(shí)別系統(tǒng),我們需要的概率模型共有4個(gè):
● 語(yǔ)言模型概率 P(WilWi-1,Wi-2)
● 觀察似然度 bj(Ot)
● 轉(zhuǎn)移概率 aij
● 發(fā)音詞表 HMM狀態(tài)圖結(jié)構(gòu)
為了訓(xùn)練語(yǔ)音識(shí)別系統(tǒng)中的這些組成部分,一般來(lái)說(shuō)需要有:
● 一個(gè)帶有單詞轉(zhuǎn)寫(xiě)的語(yǔ)音聲波文件的訓(xùn)練語(yǔ)料庫(kù)
● 一個(gè)用于訓(xùn)練語(yǔ)言模型的大規(guī)模文本語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)中應(yīng)該包含來(lái)自語(yǔ)音語(yǔ)料庫(kù)的單詞轉(zhuǎn)寫(xiě)以及其他許多類似的文本
● 通常還需要一個(gè)小規(guī)模的、用于訓(xùn)練的語(yǔ)音語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)要有語(yǔ)音標(biāo)記(也就是說(shuō),聲學(xué)信號(hào)的框架要手工進(jìn)行音位標(biāo)注)
讓我們從N元語(yǔ)法的語(yǔ)言模型開(kāi)始。對(duì)大規(guī)模語(yǔ)料庫(kù)中N元語(yǔ)法的出現(xiàn)單位進(jìn)行計(jì)數(shù),然后對(duì)這些計(jì)數(shù)進(jìn)行平滑化和歸一化。用于訓(xùn)練語(yǔ)言模型的語(yǔ)料庫(kù)一般比用于訓(xùn)練HMM參數(shù)a和b的語(yǔ)料庫(kù)的規(guī)模大得多。這是因?yàn)椋?xùn)練語(yǔ)料庫(kù)越大,模型的精確度越高。由于N元語(yǔ)法模型訓(xùn)練起來(lái)比訓(xùn)練HMM觀察概率快,又由于文本需要的空間比語(yǔ)音需要的空間少,實(shí)踐證明,使用5000萬(wàn)單詞的大型語(yǔ)料庫(kù)來(lái)訓(xùn)練語(yǔ)言模型是可行的。在一般情況下,用于訓(xùn)練HMM參數(shù)的語(yǔ)料庫(kù)也是語(yǔ)言模型數(shù)據(jù)的一部分;重要的是保持聲學(xué)模型和語(yǔ)言模型的一致性。