把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識別技術(shù) > 正文

語音識別系統(tǒng)的訓(xùn)練

發(fā)布時間: 2022-07-20 09:25:20   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 為了訓(xùn)練一個基本的語音識別系統(tǒng),我們需要的概率模型共有4個。


我們已經(jīng)知道了怎樣建立一個Viterbi解碼器,Viterbi解碼器怎樣采用三個輸入(觀察概率、HMM詞表和N元語法的語言模型),并產(chǎn)生出概率最大的單詞符號串。其中,觀察概率是通過高斯估計或MLP估計從聲譜特征得到的。但是,我們還不知道怎樣來訓(xùn)練概率模型,以建立一個語音識別系統(tǒng)。


此文將扼要地介紹大多數(shù)ASR系統(tǒng)使用的嵌入訓(xùn)練(embedded training)過程,不考慮這些系統(tǒng)是基于高斯模型的,基于MLP的,還是基于矢量量化的。首先,為了訓(xùn)練一個基本的語音識別系統(tǒng),我們需要的概率模型共有4個:


● 語言模型概率 P(WilWi-1,Wi-2)

● 觀察似然度 bj(Ot

● 轉(zhuǎn)移概率 aij

● 發(fā)音詞表 HMM狀態(tài)圖結(jié)構(gòu)


為了訓(xùn)練語音識別系統(tǒng)中的這些組成部分,一般來說需要有:


● 一個帶有單詞轉(zhuǎn)寫的語音聲波文件的訓(xùn)練語料庫

● 一個用于訓(xùn)練語言模型的大規(guī)模文本語料庫,這個語料庫中應(yīng)該包含來自語音語料庫的單詞轉(zhuǎn)寫以及其他許多類似的文本

● 通常還需要一個小規(guī)模的、用于訓(xùn)練的語音語料庫,這個語料庫要有語音標(biāo)記(也就是說,聲學(xué)信號的框架要手工進(jìn)行音位標(biāo)注)


讓我們從N元語法的語言模型開始。對大規(guī)模語料庫中N元語法的出現(xiàn)單位進(jìn)行計數(shù),然后對這些計數(shù)進(jìn)行平滑化和歸一化。用于訓(xùn)練語言模型的語料庫一般比用于訓(xùn)練HMM參數(shù)a和b的語料庫的規(guī)模大得多。這是因為,訓(xùn)練語料庫越大,模型的精確度越高。由于N元語法模型訓(xùn)練起來比訓(xùn)練HMM觀察概率快,又由于文本需要的空間比語音需要的空間少,實踐證明,使用5000萬單詞的大型語料庫來訓(xùn)練語言模型是可行的。在一般情況下,用于訓(xùn)練HMM參數(shù)的語料庫也是語言模型數(shù)據(jù)的一部分;重要的是保持聲學(xué)模型和語言模型的一致性。



微信公眾號

[1] [2] [下一頁] 【歡迎大家踴躍評論】
  • 上一篇:人的語音識別
  • 下一篇:聲學(xué)概率的計算


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時溝通與處理。


我來說兩句
評論列表
已有 0 條評論(查看更多評論)