- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
對(duì)于只能屬于一個(gè)固定詞類(lèi)的詞,標(biāo)注過(guò)程只是簡(jiǎn)單地將該詞標(biāo)上相應(yīng)的詞類(lèi)即可,而對(duì)于有多個(gè)可能的標(biāo)記的詞,即可以屬于不同詞類(lèi)的詞,所有這些不同的標(biāo)記,組成了該詞標(biāo)注過(guò)程中的歧義。如何在眾多的詞類(lèi)歧義中選擇一個(gè)正確的標(biāo)記就是標(biāo)注過(guò)程要解決的問(wèn)題。雖然自然語(yǔ)言中詞的詞類(lèi)歧義是普遍存在的,但在人們的日常生活中通常并不會(huì)發(fā)生理解上的偏差,這是因?yàn)樽匀徽Z(yǔ)言有其消除歧義的方法,這就是充分利用語(yǔ)言環(huán)境中的上下文信息及人們的經(jīng)驗(yàn)。主要有三個(gè)因素對(duì)消除歧義是有幫助的,即:上下文,語(yǔ)境、歧義間的統(tǒng)計(jì)差異和文本的領(lǐng)域特征。
文本解釋很大程度上來(lái)源于詞的上下文信息內(nèi)容,在某個(gè)特定詞的前面出現(xiàn)的若干個(gè)詞對(duì)理解該詞起關(guān)鍵性的作用,句子中其他的詞可以認(rèn)為對(duì)該詞影響較小,可以忽略其作用。對(duì)文本中各個(gè)孤立詞的上下文分析可以消除或縮小歧義。同樣歧義的消除還要依賴(lài)于與具體上下文無(wú)關(guān)的一些信息,如詞的有歧義的各個(gè)標(biāo)記在大量統(tǒng)計(jì)數(shù)據(jù)下出現(xiàn)的概率等。在不考慮上下文信息的情況下將詞標(biāo)上最大出現(xiàn)概率的標(biāo)記要比標(biāo)上其他標(biāo)記在統(tǒng)計(jì)性能上要好一些。一個(gè)基于統(tǒng)計(jì)模型的標(biāo)注算法,不僅要考慮詞的上下文信息,還要考慮詞的各個(gè)可能標(biāo)記的出現(xiàn)概率。詞的標(biāo)記的統(tǒng)計(jì)數(shù)據(jù)在不同的領(lǐng)域中有著不小的差異,如詞“樹(shù)”在日常生活中絕大多數(shù)情況下是指植物的一種,與“榆樹(shù)”、“槐樹(shù)”等詞近義,其他可能的概念就很少見(jiàn),而在計(jì)算機(jī)領(lǐng)域中,這個(gè)概念通常是指一種抽象的數(shù)據(jù)結(jié)構(gòu),只是說(shuō)其拓?fù)浣Y(jié)構(gòu)與樹(shù)相似,與“榆樹(shù)”、“槐樹(shù)”等并無(wú)太大的直接聯(lián)系,而與“隊(duì)列”、“堆?!钡冉x。在已知領(lǐng)域的情況下,領(lǐng)域因素往往對(duì)消除歧義有不可忽視的作用。
無(wú)論對(duì)于何種標(biāo)記體系(詞性/概念)都應(yīng)當(dāng)滿(mǎn)足以下兩個(gè)要求作為自動(dòng)標(biāo)注模型的基本假設(shè):
(1) 對(duì)于任何一個(gè)給定的詞,只有有限個(gè)可能的標(biāo)記可選,即總的詞類(lèi)要確定,這些可選的標(biāo)記應(yīng)當(dāng)能夠事先得到。
(2) 當(dāng)一個(gè)詞有多個(gè)標(biāo)記時(shí),正確的標(biāo)記可以根據(jù)局部上下文(如該詞的前一個(gè)或兩個(gè)詞的正確標(biāo)記)確定下來(lái),即只有一個(gè)標(biāo)記被認(rèn)為在該語(yǔ)言環(huán)境下是正確的。
這些假設(shè)有如下優(yōu)點(diǎn):
(1)這種近似是可以接受的。詞性標(biāo)記能很好地滿(mǎn)足上述要求,概念標(biāo)記有些特殊,在有些語(yǔ)言環(huán)境下一個(gè)詞可能不止有一個(gè)正確概念,并不能唯一確定,但我們可以認(rèn)為在這種情況下只有一個(gè)概念是最有說(shuō)服力的,并且有歧義的概念通常都屬于同一個(gè)大的概念類(lèi),在一個(gè)面向概念統(tǒng)計(jì)分析的語(yǔ)言系統(tǒng)中,在這些屬于同一大類(lèi)的被認(rèn)為是正確的標(biāo)記中任選一個(gè),并不會(huì)對(duì)分析結(jié)果產(chǎn)生過(guò)大的影響。在這個(gè)假設(shè)下,概念標(biāo)記也能滿(mǎn)足上述兩個(gè)要求。
(2)提供了一個(gè)有力的理論框架,為排除歧義提供了一個(gè)直接手段。
(3)所需的模型參數(shù)可以從已知數(shù)據(jù)中估計(jì)出來(lái),即可以通過(guò)訓(xùn)練得到。
定義了一個(gè)標(biāo)記集之后,考查一個(gè)句子W=w1,…,wn和對(duì)應(yīng)的一個(gè)標(biāo)記序列Tj=t1,…,tn其中W和Tj等長(zhǎng)度,我們稱(chēng)(W,Tj)二元組為一個(gè)組合,在該組合中每個(gè)和wi(1≤i≤n)一 一對(duì)應(yīng),是詞wi的所有可能的標(biāo)記中的一個(gè)。由于標(biāo)記具有特定的語(yǔ)言學(xué)意義,因而在一個(gè)給定的W的所有組合中有且只有一個(gè)語(yǔ)法學(xué)上正確的Tw∈{T(W,T)}與之相對(duì)應(yīng)。
標(biāo)注過(guò)程就是對(duì)每一個(gè)句子W,在與之對(duì)應(yīng)的各個(gè)T中選擇出正確的標(biāo)記序列Tw,即:
v.W→T=v(WV)。
對(duì)文本中每個(gè)詞確定對(duì)應(yīng)的正確標(biāo)記,增加了詞的信息量,從而有助于更好地對(duì)詞進(jìn)行理解。作為語(yǔ)法分析的前處理和為語(yǔ)義分析提供依據(jù)是標(biāo)注過(guò)程的兩個(gè)主要作用。詞性標(biāo)注確定了一個(gè)句子的準(zhǔn)確詞性序列可以作為語(yǔ)法分析的前處理,概念標(biāo)注確定了句子中各個(gè)詞的正確概念,這正好可以作為以向量空間模型為背景的語(yǔ)義分析的基礎(chǔ)。以前的英語(yǔ)的詞性標(biāo)注工作表明,基于統(tǒng)計(jì)方法的詞性標(biāo)注不僅能夠準(zhǔn)確地確定詞的詞性,而且其精度也比用語(yǔ)法分析的副產(chǎn)品的確定詞性的精度來(lái)得更高,在處理漢語(yǔ)文本時(shí)也有同樣的結(jié)論。將標(biāo)注作為語(yǔ)法分析的預(yù)處理過(guò)程,使得語(yǔ)法分析時(shí)的搜索空間大為減小,從數(shù)量級(jí)上縮小了語(yǔ)法分析的時(shí)間,消除了運(yùn)算時(shí)間問(wèn)題這個(gè)語(yǔ)法分析的瓶頸,為語(yǔ)法分析在大規(guī)模真實(shí)文本的處理中的應(yīng)用鋪平了道路。
有兩個(gè)標(biāo)準(zhǔn)可以衡量標(biāo)注過(guò)程的性能,即:
(1)句子級(jí): 正確標(biāo)注的句子數(shù)/總句子數(shù)×100%。
(2)詞級(jí):正確標(biāo)注的詞數(shù)/總詞數(shù)×100%。
實(shí)際上,一個(gè)標(biāo)注過(guò)程的句子級(jí)的性能通常比詞級(jí)的性能差一些,通常我們所指的標(biāo)注性能在不加說(shuō)明的情況下都是指詞級(jí)的性能。