- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
人的語(yǔ)音識(shí)別有很多特征與我們介紹過(guò)的語(yǔ)音自動(dòng)識(shí)別模型的很多特征是共同的。前面說(shuō)過(guò),像PLP分析這樣的信號(hào)處理算法的設(shè)計(jì),實(shí)際上明顯地受到人的聽覺系統(tǒng)特性的啟發(fā)。此外,人的詞匯存?。╨exical access,也就是人從心理詞典中檢索單詞的過(guò)程)的四個(gè)特性在ASR中也是存在的,這四個(gè)特性是:頻度(frequency)、平行性(parallelism)、鄰近效應(yīng)(neighborhood effect)和基于提示的處理(cue-based processing)。例如,與N元語(yǔ)言模型的ASR一樣,人的詞匯存取也是對(duì)單詞頻度敏感的。與低頻度的口語(yǔ)單詞相比,高頻度的口語(yǔ)單詞存取的速度比較快,或者存取時(shí)需要的信息比較少。在噪聲環(huán)境下,或者在單詞中只有局部部分呈現(xiàn)出來(lái)時(shí),高頻度的單詞比低頻度的單詞更容易被成功識(shí)別。正如ASR一樣,人的詞匯存取是并行的:在同樣的時(shí)刻可以激活多個(gè)單詞。人對(duì)單詞的存取還顯示出鄰接效應(yīng)(一個(gè)單詞的鄰近詞是一些與它類似的單詞)。帶有較高頻度權(quán)值鄰近詞的單詞,它的存取速度比那些鄰近詞比較少的單詞慢一些。Jurafsky(1996)指出,存取時(shí)的鄰近效應(yīng)可以用ASR中的貝葉斯模型來(lái)解釋。
最后,人的語(yǔ)音感知還是基于提示的(cue-based):語(yǔ)音輸入要結(jié)合很多不同層次的提示來(lái)解釋。例如,業(yè)已證明,人對(duì)于單個(gè)音子的感知要把許多不同的提示結(jié)合起來(lái)進(jìn)行,包括聲學(xué)提示,例如共振峰的結(jié)構(gòu)或發(fā)音的確切時(shí)間,視覺提示,例如嘴唇的運(yùn)動(dòng),詞匯提示,例如音子所在單詞的同一性。還有一個(gè)通常稱為音位復(fù)原效應(yīng)(phoneme restoration effect)的例子。Warren(1970)取一個(gè)語(yǔ)音樣本并且在咳嗽聲的背景下替換其中的一個(gè)音子(例如,替換legislature中的[s]這個(gè)音子)。Warren發(fā)現(xiàn),受試者在聽到這樣的錄制磁帶時(shí),在典型的情況下聽到的仍然是包含[s]在內(nèi)的整個(gè)單詞legislature,而且還感覺到了咳嗽聲背景的存在。在人的語(yǔ)音感知中,其他的提示還有語(yǔ)義方面的單詞聯(lián)想(word association)和重復(fù)優(yōu)先(repetition priming)。所謂“單詞聯(lián)想”指的是,如果同時(shí)還聽到一個(gè)語(yǔ)義上相關(guān)的詞,單詞的存取會(huì)比較快。所謂“重復(fù)優(yōu)先”指的是,當(dāng)再聽剛才已聽到的單詞時(shí),其存取速度會(huì)比較快。這兩種與語(yǔ)義有關(guān)的研究結(jié)果,已經(jīng)被應(yīng)用于一些新近的語(yǔ)言模型中。例如,Kuhn and Mori(1990)的存儲(chǔ)模型就使用了重復(fù)優(yōu)先的原理;Rossenfeld(1996)的觸發(fā)器模型,Coccaro and Jurafsky(1998)的LSA模型以及Bellegarda(1999)都使用了單詞聯(lián)想的原理。值得注意的是,這些卓越的思想絕不是現(xiàn)在才提出的,Cole and Rudnicky(1983)在他們一篇引人入勝的評(píng)述文章中指出,對(duì)于單詞和音子處理的上下文效應(yīng)這種深刻的關(guān)系,事實(shí)上早就被William Bagley(1901)發(fā)現(xiàn)了。Bagley的成就,除了單詞和音子的上下文效應(yīng)之外,還包括對(duì)于音位復(fù)原效應(yīng)的早期研究,這些成果在愛迪生(Edison)留聲機(jī)滾筒的錄音中得到了應(yīng)用,后來(lái)又進(jìn)行過(guò)修改,并且把它們公之于眾。Bagley的這些成果被遺忘了,很久以后才被再次發(fā)現(xiàn)。
現(xiàn)代ASR模型和人的語(yǔ)音識(shí)別之間的一個(gè)差別是ASR模型的時(shí)間導(dǎo)向性(time-course)。在執(zhí)行ASR算法時(shí),解碼搜索的過(guò)程是在整個(gè)語(yǔ)段上進(jìn)行優(yōu)化的,這一點(diǎn)很重要。這意味著,解碼器在句子的結(jié)尾時(shí)返回的最佳句子假設(shè)可能與在句子中途返回的當(dāng)前最佳句子假設(shè)有很大的差別。與
此不同的是,有充分的證據(jù)表明,人的語(yǔ)音處理是在線的(on-line)。人們把一個(gè)語(yǔ)段一步步地切分成若干個(gè)單詞,當(dāng)他們聽到相應(yīng)單詞的時(shí)候就指派給該單詞一個(gè)解釋,這個(gè)過(guò)程是遞增進(jìn)行的。例如,Marslen-Wilson(1973)曾經(jīng)研究過(guò)所謂的“緊密背影”(close shadower):當(dāng)人們聽到一個(gè)語(yǔ)音片斷時(shí),會(huì)在250ms的短時(shí)間內(nèi)留下該語(yǔ)音片斷的背影(即向后重復(fù))。Marslen-Wilson還發(fā)現(xiàn),當(dāng)這些背影出現(xiàn)錯(cuò)誤時(shí),它們會(huì)根據(jù)上下文,利用句法和語(yǔ)義特征來(lái)進(jìn)行校正,在這250ms之內(nèi)進(jìn)行單詞的切分、剖析以及解釋。Cole(1973)和Cole and Jakimik(1980)發(fā)現(xiàn),在關(guān)于錯(cuò)誤發(fā)音檢查的研究中也存在著類似的效應(yīng)。在這些研究成果的基礎(chǔ)上,學(xué)者們研制了一些關(guān)于人類語(yǔ)音感知的心理模型,例如隊(duì)列模型和TRACE計(jì)算模型。TRACE計(jì)算模型重點(diǎn)研究了單詞選擇和切分的時(shí)間導(dǎo)向。例如,TRACE模型是一個(gè)連接主義的模型或者神經(jīng)網(wǎng)絡(luò)的交互式激活模型。在這個(gè)模型中,獨(dú)立的計(jì)算單元被組織為三個(gè)平面:特征平面、音位平面和單詞平面。每個(gè)單元表示關(guān)于它在輸入中出現(xiàn)的一個(gè)假設(shè)。輸入時(shí),各個(gè)單元被并行地激活,單元之間的激活可以流動(dòng);不同平面的單元之間的連接是可激發(fā)的,而同一平面上的單元之間的連接是抑制的。所以,一個(gè)單詞被激活之后,就可能稍微抑制所有其他單詞的激活。
人的語(yǔ)音識(shí)別和機(jī)器的語(yǔ)音識(shí)別之間有相似性的,但它們之間還有很多差別。特別是,許多事實(shí)表明,很多其他方面的提示在人的語(yǔ)音識(shí)別中也在發(fā)揮作用,而且這樣的提示也被成功地結(jié)合到ASR系統(tǒng)中。這些被忽視的提示中最重要的是韻律。這里我們只舉一個(gè)簡(jiǎn)單的例子,Cutler and Norris(1988)和Cutler and Carter(1987)都注意到,英語(yǔ)多音節(jié)單詞有很多詞的“例”的重音都在開始的音節(jié),因此在“矩陣切分策略”(metrical segmentation strategy,簡(jiǎn)稱MSS)中提出把重音用來(lái)作為單詞切分的一個(gè)提示。
責(zé)任編輯:admin