當(dāng)前位置：首頁 > 機(jī)翻技術(shù) > 識別技術(shù) > 正文

語音識別系統(tǒng)的訓(xùn)練

發(fā)布時間： 2022-07-20 09:25:20 作者：etogether.net 來源：網(wǎng)絡(luò) 瀏覽次數(shù)：

摘要: 為了訓(xùn)練一個基本的語音識別系統(tǒng)，我們需要的概率模型共有4個。

我們已經(jīng)知道了怎樣建立一個Viterbi解碼器，Viterbi解碼器怎樣采用三個輸入（觀察概率、HMM詞表和N元語法的語言模型），并產(chǎn)生出概率最大的單詞符號串。其中，觀察概率是通過高斯估計或MLP估計從聲譜特征得到的。但是，我們還不知道怎樣來訓(xùn)練概率模型，以建立一個語音識別系統(tǒng)。

此文將扼要地介紹大多數(shù)ASR系統(tǒng)使用的嵌入訓(xùn)練（embedded training）過程，不考慮這些系統(tǒng)是基于高斯模型的，基于MLP的，還是基于矢量量化的。首先，為了訓(xùn)練一個基本的語音識別系統(tǒng)，我們需要的概率模型共有4個：

● 語言模型概率 P(WilWi-1,Wi-2)

● 觀察似然度 bj(Ot）

● 轉(zhuǎn)移概率 aij

● 發(fā)音詞表 HMM狀態(tài)圖結(jié)構(gòu)

為了訓(xùn)練語音識別系統(tǒng)中的這些組成部分，一般來說需要有：

● 一個帶有單詞轉(zhuǎn)寫的語音聲波文件的訓(xùn)練語料庫

● 一個用于訓(xùn)練語言模型的大規(guī)模文本語料庫，這個語料庫中應(yīng)該包含來自語音語料庫的單詞轉(zhuǎn)寫以及其他許多類似的文本

● 通常還需要一個小規(guī)模的、用于訓(xùn)練的語音語料庫，這個語料庫要有語音標(biāo)記（也就是說，聲學(xué)信號的框架要手工進(jìn)行音位標(biāo)注）

讓我們從N元語法的語言模型開始。對大規(guī)模語料庫中N元語法的出現(xiàn)單位進(jìn)行計數(shù)，然后對這些計數(shù)進(jìn)行平滑化和歸一化。用于訓(xùn)練語言模型的語料庫一般比用于訓(xùn)練HMM參數(shù)a和b的語料庫的規(guī)模大得多。這是因為，訓(xùn)練語料庫越大，模型的精確度越高。由于N元語法模型訓(xùn)練起來比訓(xùn)練HMM觀察概率快，又由于文本需要的空間比語音需要的空間少，實踐證明，使用5000萬單詞的大型語料庫來訓(xùn)練語言模型是可行的。在一般情況下，用于訓(xùn)練HMM參數(shù)的語料庫也是語言模型數(shù)據(jù)的一部分；重要的是保持聲學(xué)模型和語言模型的一致性。

[1] [2] [下一頁] 【歡迎大家踴躍評論】

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

語音識別系統(tǒng)的訓(xùn)練

相關(guān)機(jī)器翻譯技術(shù)文章

免費在線翻譯

翻譯機(jī)

外語書籍

行業(yè)文章

人工翻譯