A*解碼算法應用于語音識別系統(tǒng)

發(fā)布時間： 2022-07-18 09:38:02 作者：etogether.net 來源：網(wǎng)絡瀏覽次數(shù)：

在例子中的這個點上，我們使用快速匹配的辦法，從下面的可能單詞中選出一個子集合，并且給每個選出的單詞打分。我們還沒有講怎樣來精確地計算分數(shù)。大致來說，對于給定的聲學輸入，這個分數(shù)應該是所假定的句子的概率的一個組成部分P(WIA)，它本身是由語言模型的概率P(W)和聲學似然度P(AIW)構成的。

圖3 搜索句子If music be the food of love 開始時的搜索空間。在這個開始階段，Alice是最可能的假設（與其他假設相比，它的分數(shù)最高）

圖4 說明了搜索的下一個階段。我們把結點Alice向前延伸，這意味著Alice不再處于隊列中，但是它的后繼單詞進入了隊列。注意，這時標記為if的結點成為了分數(shù)最高的結點，所得的分數(shù)比Alice的所有后繼結點都高。

圖4 搜索句子If music be the food of love 的下一個階段?，F(xiàn)在我們延伸結點Alice，并且把它的三個分數(shù)比較高的后繼（was,wants和walls）加入隊列中，注意，現(xiàn)在分數(shù)最高的結點是START if，順著START Alice的這條路徑已經(jīng)不存在了

圖5 說明了在延伸了結點if之后的搜索狀態(tài)，這時if被移走，隊列中增加了if music, if muscle 和if messy。

前面提到，給一個假設打分的標準與其概率有關。我們現(xiàn)在來具體說明這個問題。對于給定的聲學符號串式1.png ，單詞串式2.png 的分數(shù)似乎應該等于先驗概率和似然度的乘積：

式3.png

遺憾的是，這樣計算出來的概率不能作為打分的分數(shù)，因為如果這樣計算，越長的路徑概率會越小，而越短的路徑概率會越大。這是出于概率和子符號串的簡單事實；這樣，符號串的任何前面的部分將會比符號串本身具有更大的概率，例如P(START the .….)將會大于P(START the book)。在這種情況下，如果我們采用這個概率作為分數(shù)，在遇到單個詞的假設時，A*解碼算法將會停滯不前，束手無策。

圖5 我們現(xiàn)在延伸結點if，這時START if music這個假設的分數(shù)最高

我們不采用上面的辦法，而是采用A*評估函數(shù)來計算。A*評估函數(shù)（Nilsson,1980；pearl,1984）稱為f*(p)，對于給定的局部路徑p，有：

f*(p)=g(p)＋h*(p)

f*(p)是從部分路徑p開始的最佳完全路徑（完全句子）的估計分數(shù)。換言之，對于給定的部分路徑p，f*(p)能夠估計出，如果繼續(xù)通過這個句子，這條路徑的好壞程度。A*算法使用兩個部分來進行這樣的估計：

● g(p) 是從語段的起點到部分路徑終點的分數(shù)。可以通過對于前面給定的聲學符號串p的概率來很好地估計函數(shù)g，也就是對于構成p的單詞串W的P(AIW)P(W)。

● h*(p) 是從部分路徑延伸到語段終點的最佳分數(shù)的估計。

如何很好地估計h*還是一個沒有解決的問題，也是一個很有意思的問題。有一種方法是根據(jù)在句子中剩下的單詞數(shù)來估計h*的值（Paul,1991）；進一步的討論可參閱Jelinek(1997）。

前面講過，無論是A*解碼算法還是其他兩階段解碼算法，都要求使用快速匹配，以便很快地找出詞表中哪些單詞可以作為與聲學輸入中的某個部分相匹配的最佳候選。很多快速匹配算法都基于使用一種樹結構詞表（tree-structured lexicon），在詞表中存儲所有單詞的發(fā)音，存儲方式要使得在向前方推進計算概率時，能夠與相同音子開頭的單詞共享，做到前后勾連。樹結構詞表是首先由Klovstad and Mondshein(1975)提出的；Gupta et al.(1988)把樹結構詞表用于快速匹配中；Bahl et al.(1992)在A*解碼算法中,Ney et al.(1992)和Nguyen and Schwartz(1999)在Viterbi算法中，都使用過樹結構詞表。圖7.18是在Sphinx-II的語音識別系統(tǒng)中使用的樹結構詞表的一個例子（Ravishankar, 1996）。每個樹的根表示所有單詞開頭的第一個音子，單詞開頭的上下文與音子有關（音子上下文可以穿過單詞的邊界，也可以不穿過單詞的邊界），每個葉子與一個單詞相關聯(lián)。

還有很多其他種類的多階段搜索算法，例如，不要把向前-向后搜索算法與HMM置參數(shù)的向前-向后算法相混淆（Austin et al.,1991），前者的向前搜索比較簡單，但緊接著的向后搜索（即時間反演）很細致。

圖6 在Sphinx-Ⅱ的語音識別系統(tǒng)中使用的一個樹結構詞表（Ravishankar,1996）。每個結點對應于一個特定的三音子，三音子符號的記錄方式基本上按照ARPAbet,只做了很小的修改，因此，EY(B，KD)表示前面為B后面以K結尾的音子EY

責任編輯：admin

[上一頁][1] [2] 【歡迎大家踴躍評論】

《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權。如發(fā)現(xiàn)本站文章存在版權問題，煩請30天內(nèi)提供版權疑問、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

A*解碼算法應用于語音識別系統(tǒng)

相關機器翻譯技術文章

免費在線翻譯

翻譯機

外語書籍

行業(yè)文章

人工翻譯