- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
對于語法分析來說,句子級(jí)的衡量標(biāo)準(zhǔn)更有意義一些。在同樣的詞級(jí)性能評(píng)價(jià)下,錯(cuò)誤的標(biāo)注出現(xiàn)得越集中(如:很多錯(cuò)誤發(fā)生在一個(gè)句子中),對語法分析的評(píng)價(jià)越有利,這是因?yàn)檎Z法分析的性能是按句子來衡量的。但對于語義分析,其基本要求是更多的正確概念,詞級(jí)的評(píng)價(jià)標(biāo)準(zhǔn)更好,因?yàn)榻?jīng)常標(biāo)注錯(cuò)誤的虛詞類概念在語義分析中并不起多大作用,而虛詞特別是一些小品詞的歧義通常是最多和最難以確定的。這種情況下甚至可以僅僅用正確標(biāo)注的實(shí)詞比例來評(píng)價(jià)標(biāo)注性能。
在標(biāo)注問題的概率公式中,我們假設(shè)(W,T)組合可以通過一個(gè)關(guān)于概率分布p(W,T)的概率模型產(chǎn)生。在這種情況下,最優(yōu)的標(biāo)注過程根據(jù)不同的評(píng)價(jià)準(zhǔn)則可以有如下兩種。
(1)句子級(jí)評(píng)價(jià),選擇句子的最有可能性的標(biāo)記序列。
這個(gè)過程我們稱之為Viterbi標(biāo)注,它可以通過使用一種動(dòng)態(tài)規(guī)劃策略實(shí)現(xiàn)。
(2)詞級(jí)評(píng)價(jià),對句子中的每個(gè)詞選取最有可能的標(biāo)記。
這里v(wi)是標(biāo)注過程根據(jù)句子中的上下文信息賦于詞wi的標(biāo)記,這個(gè)過程我們稱之為最大似然標(biāo)注或ML標(biāo)注。
盡管Viterbi標(biāo)注在詞級(jí)評(píng)價(jià)上不是最優(yōu)的,但它卻是最常用的一個(gè)標(biāo)注算法,主要原因如下:
(1)Viterbi標(biāo)注提供的最優(yōu)狀態(tài)序列(標(biāo)記序列)能更好地描述句子,在語法上的解釋很吸引人。
(2)最大似然標(biāo)注可能產(chǎn)生一些語法上不可能出現(xiàn)的標(biāo)記序列。
然而,根據(jù)實(shí)際標(biāo)注結(jié)果的比較,可以發(fā)現(xiàn),兩者非常近似,差別并不明顯。
真實(shí)文本條件下,在標(biāo)注過程中一個(gè)詞的概念的確定要比詞性的確定需要更多的上下文,即:考慮同樣多的上下文時(shí),概念標(biāo)注的結(jié)果要比詞性標(biāo)注差一些。但語義分析的具體要求一般不如語法分析嚴(yán)格,只需給出帶來重大歧義的詞的標(biāo)記即可。
在考慮不同數(shù)量的上下文的情況下,我們可以建立如下的隨機(jī)語言模型:
兩步模型:
※當(dāng)前考查的詞wi的正確標(biāo)記ti僅依賴于當(dāng)前詞的直接前趨詞wi-1及其標(biāo)記ti-1。
三步模型:
※當(dāng)前考查的詞wi的正確標(biāo)記ti僅依賴于當(dāng)前詞的前趨詞wi-1、wi-2及其標(biāo)記ti-1、ti-2。
以上兩個(gè)模型都是問題實(shí)際模型的一個(gè)近似,形式上看考慮更多的上下文因素的更復(fù)雜的模型可能會(huì)更接近實(shí)際模型,但是實(shí)際上考慮更多的上下文,意味著不僅需要更大的計(jì)算機(jī)存儲(chǔ)容量和計(jì)算時(shí)間,而且模型中會(huì)出現(xiàn)更多的參數(shù),以及為使這些參數(shù)得到充分的訓(xùn)練而要求更多的訓(xùn)練語料。對于任何一種標(biāo)記分類標(biāo)準(zhǔn)而言,人工標(biāo)注十幾萬詞的訓(xùn)練語料已經(jīng)不是一件輕松的事。若Nw表示詞典的大小,Nr表示每個(gè)詞最多的可能的標(biāo)記個(gè)數(shù),兩步模型最多可能的參數(shù)個(gè)數(shù)約為:Nw×VT,三步模型最多可能的參數(shù)個(gè)數(shù)為:Nw×NT×NT。事實(shí)上對上述兩個(gè)模型來說,對于94類的概念標(biāo)注,即使是一個(gè)很小的三、四萬詞的詞典,語料不充分的情況就已經(jīng)十分嚴(yán)重,大量的(詞匯、標(biāo)記)對,(標(biāo)記、標(biāo)記、標(biāo)記)對根本沒有機(jī)會(huì)在一個(gè)只有十幾萬詞的訓(xùn)練語料中出現(xiàn)。盡管引入的小概率估計(jì)方法可以使情況有所改善,但并不能從根本上解決問題,模型中大量未經(jīng)訓(xùn)練的參數(shù)將導(dǎo)致模型的不穩(wěn)定并直接影響標(biāo)注效果,因而其實(shí)際效果并不一定總比兩步模型要好。
責(zé)任編輯:admin