- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
語(yǔ)音識(shí)別系統(tǒng)把語(yǔ)音的聲學(xué)輸入看成是源句子的一個(gè)噪聲“版本”。為了對(duì)這個(gè)噪聲句子進(jìn)行“解碼”,要考慮所有可能的句子。對(duì)于每個(gè)句子,要計(jì)算它生成噪聲句子的概率,然后選取概率最大的句子。圖1具體說(shuō)明了這個(gè)“噪聲信道”的比喻。
圖1應(yīng)用于整個(gè)句子的噪聲信道模型?,F(xiàn)代語(yǔ)音識(shí)別系統(tǒng)的工作就是要搜索一個(gè)很大的潛在源句子空間,并選擇在生成噪聲句子時(shí)具有最大概率的句子。為了做到這些,語(yǔ)音識(shí)別系統(tǒng)不惜使用各種模型:表示實(shí)現(xiàn)為一定的單詞串的句子的概率模型(N元語(yǔ)法),表示實(shí)現(xiàn)為一定的音子串的單詞的概率模型(HMM),表示實(shí)現(xiàn)為聲學(xué)特征或聲譜特征的音子的概率模型(高斯/MLP)
如圖1所示,建立噪聲信道模型需要解決兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是,為了挑選出與噪聲輸入匹配的最佳句子,需要對(duì)“最佳匹配”有一個(gè)完全的度量。因?yàn)檎Z(yǔ)音是變化多端的,一個(gè)聲學(xué)輸入句子不可能與這個(gè)句子的任何模型都匹配得天衣無(wú)縫。我們將使用概率作為度量,并且說(shuō)明了如何把不同的概率估計(jì)結(jié)合起來(lái),以便對(duì)給定的候選句子的噪聲觀察序列的概率得到一個(gè)完全的估計(jì)。第二個(gè)問(wèn)題是,因?yàn)樗杏⒄Z(yǔ)句子的集合非常大,我們需要一個(gè)有效的算法,使得不必對(duì)所有可能的句子都進(jìn)行搜索,而只搜索那些有機(jī)會(huì)與輸入匹配的句子。這就是解碼問(wèn)題或搜索問(wèn)題,我們將總結(jié)兩種方法:Viterbi解碼算法或動(dòng)態(tài)規(guī)劃算法,棧解碼算法或A*解碼算法。
語(yǔ)音識(shí)別的概率噪聲信道總體結(jié)構(gòu)的目標(biāo)如下:
“對(duì)于給定的某個(gè)聲學(xué)輸入O,在語(yǔ)言的ζ所有句子中,哪個(gè)句子是最可能的句子?”
我們可以把聲學(xué)輸入O作為單個(gè)“符號(hào)”或“觀察”的序列來(lái)處理(例如,把輸入按每10微秒切分成音片,每個(gè)音片用它的能量或頻度的浮點(diǎn)值來(lái)表示)。我們用索引號(hào)來(lái)表示時(shí)間間隔,用有順序的Oi表示在時(shí)間上前后連續(xù)的輸入音片(注意,大寫字母表示符號(hào)的序列,小寫字母表示單
個(gè)的符號(hào)):
類似地,我們?cè)诒硎揪渥訒r(shí),也把它看成是似乎由單詞簡(jiǎn)單地構(gòu)成的單詞串:
無(wú)論是聲學(xué)輸入還是句子的這種表示,都是簡(jiǎn)化了的假設(shè);例如,有時(shí)把句子切分成單詞顯得太細(xì)(當(dāng)我們想模擬單詞的組合而不是單個(gè)詞時(shí)),有時(shí)又顯得太粗(當(dāng)我們想討論形態(tài)時(shí))。在語(yǔ)音識(shí)別中,單詞通常是根據(jù)正詞法來(lái)定義的(當(dāng)把每個(gè)單詞映射為小寫字母以后):把oak與oaks當(dāng)成不同的單詞來(lái)處理;但是,助動(dòng)詞can(“can you tell me…?”)與名詞can(“i need a can of…”)卻被當(dāng)成相同的單詞來(lái)處理。最近的ASR研究開始注意建立更復(fù)雜的ASR單詞模型。
前面的直覺概率表示如下:
函數(shù)argmax f(x)的意思是“使得 f(x)為最大值的x”。式(7.3)能保證給出最優(yōu)的句子W,但現(xiàn)在需要使這個(gè)等式運(yùn)行起來(lái);這就是說(shuō),對(duì)于給定的句子W和聲學(xué)序列O,我們需要計(jì)算出P(W|O)。我們知道,對(duì)于任何給定的概率P(xly),可以使用貝葉斯規(guī)則,把這個(gè)概率P(xly)分解如下: