- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
3. 歧義字段的發(fā)現(xiàn)
最簡(jiǎn)單的識(shí)別歧義字段的方法是窮舉法,即找出輸入字串從每個(gè)漢字開(kāi)始的所有可能的詞。由于窮舉法時(shí)間復(fù)雜度較大,不夠?qū)嵱?,一般采用雙向掃描的方法來(lái)發(fā)現(xiàn)歧義字段。所謂雙向掃描,就是對(duì)同一字段,分別用正向匹配和逆向匹配方法切分文本。兩種方法得到的結(jié)果相同,則認(rèn)為切分正確,否則就判別為歧義字段。以歧義句“他的確切地址”為例:
正向匹配結(jié)果:“他的確切地址”:逆向匹配結(jié)果:“他的確切地址”。由此可以發(fā)現(xiàn)交集歧義字段“的確切”。
具體地,采用正向最小匹配和逆向最大匹配,并且最小匹配從單字詞開(kāi)始。這樣不僅能識(shí)別交集歧義字段,還能識(shí)別多義組合字段。以歧義句“他將來(lái)的工作”為例:
逆向最大匹配結(jié)果:“他 將來(lái) 的 工作”;正向最小匹配結(jié)果:“他 將 來(lái) 的 工作”。由此可以發(fā)現(xiàn)多義組合字段“將來(lái)”。
4. 歧義字段的處理
我們采用規(guī)則知識(shí)和統(tǒng)計(jì)信息相結(jié)合的方法來(lái)處理歧義字段,首先使用分詞規(guī)則,在規(guī)則使用無(wú)效的情況下再使用統(tǒng)計(jì)信息。
分詞規(guī)則又由構(gòu)詞規(guī)則和排歧規(guī)則組成,其中構(gòu)詞規(guī)則根據(jù)構(gòu)詞法自動(dòng)生成部分未在詞典中登錄,但由《分詞規(guī)范》所確認(rèn)的分詞單位,包括:
(1)前綴詞素構(gòu)詞規(guī)則:只出現(xiàn)在詞的第一位置,與詞根詞素(即具有詞匯意義的語(yǔ)素)構(gòu)成詞的附加素稱為前綴詞素。前綴詞素包括“阿”、“第”、“初”、“可”等,其中的“第”、“初”已在預(yù)處理階段進(jìn)行了處理。
(2)后綴詞素構(gòu)詞規(guī)則:只出現(xiàn)在詞的最后位置,與詞根詞素構(gòu)成詞的附加素稱為后綴詞素。后綴詞素包括“們”、“員”、“家”等。但是前、后綴詞素要構(gòu)詞還必須滿足一定的語(yǔ)義限制。例如,“員”既可做為后綴詞素,又可做為量詞。因此,只有在它前面的詞不是數(shù)詞的情況下,才運(yùn)用構(gòu)詞規(guī)則。
(3)重疊字構(gòu)詞規(guī)則:其中重疊字可分為以下幾類:
AA式重疊字——家家、人人;
AABB式重疊字——冷冷清清、家家戶戶、花花綠綠;
ABB式重疊字——黑洞洞、涼津津;
ABAB式重疊字——高興高興、辛苦辛苦;
AAB式重疊字——搖搖頭。
在發(fā)生歧義現(xiàn)象的情況下,將根據(jù)排歧規(guī)則選擇一種切分方式。由于上文所介紹的原因,我們不采用就某一特定的歧義字段而確立的專用規(guī)則,僅采用通用規(guī)則來(lái)處理歧義現(xiàn)象。在通用規(guī)則無(wú)效的情況下,再調(diào)用統(tǒng)計(jì)信息。所使用的通用規(guī)則包括以下幾條:
(1)成詞切分優(yōu)先:兩種切分結(jié)果,一種全部由詞匯組成,而另一種含有孤立字,則選擇前一種切分結(jié)果。根據(jù)這條規(guī)則,歧義句“昨天下課后”將被切成“昨天 下課 后”,而非“昨 天下 課后”,因?yàn)椤白颉辈皇菃巫衷~。
(2)單字方位詞不組詞:歧義句“他伏下身子”將被切成“他 伏 下 身子”,而非“他 伏 下身 子”。
(3)量詞優(yōu)先:歧義句“來(lái)了三個(gè)人”將被切成“來(lái) 了 三 個(gè) 人”,而非“來(lái) 了 三 個(gè)人”。
(4)單字動(dòng)詞盡可能單獨(dú)切分:歧義句“不會(huì)用心機(jī)”將被切分成“不會(huì) 用 心機(jī)”,而非“不會(huì) 用心 機(jī)”。
(5)鏈長(zhǎng)為2的交集字段自然成詞:歧義句“當(dāng)天下午”將被切成“當(dāng)天 下午”,而非“當(dāng) 天下 午”。
不同的規(guī)則應(yīng)用于相同的歧義字段時(shí),可能會(huì)產(chǎn)生不同的結(jié)果。因此,在應(yīng)用規(guī)則時(shí),必須嚴(yán)格按照規(guī)則次序加以調(diào)用。
在規(guī)則使用無(wú)效的情況下,使用了統(tǒng)計(jì)信息,主要是詞頻信息。在訓(xùn)練語(yǔ)料庫(kù)時(shí),是按詞的不同詞義計(jì)算頻率的,因?yàn)橐粋€(gè)漢語(yǔ)單詞可能有幾個(gè)詞性,每個(gè)詞性又可能有幾個(gè)詞義,知道了詞的詞義頻率,也就同時(shí)知道了詞頻和詞的詞性頻率。
因此,可用以下三種方式使用統(tǒng)計(jì)信息以消除歧義:
(1)簡(jiǎn)單詞頻信息。用C=c1c2…cm表示輸入的由m個(gè)漢字組成的歧義切分字段;W=w1w2…wn表示把C切分后得到的由n個(gè)詞組成的詞串,V=v1v2…vm是另一種切分結(jié)果。用frq(w)表示詞w的頻率。如果有:,則選擇切分結(jié)果W。例如:字段“太平淡”有兩種切分結(jié)果,“太 平淡”和“太平 淡”。根據(jù)frq(“太”)×frq(“平淡”)>frq(“太平”)×frq(“淡”),將選取切分結(jié)果“太 平淡”。
單純使用詞頻信息,沒(méi)有考慮到詞性和詞義信息,更沒(méi)有考慮到不同詞性和詞義之間的概率轉(zhuǎn)移關(guān)系,錯(cuò)誤率較高。對(duì)于頻率較低的詞將永遠(yuǎn)不能正確切分。例如:“他的確切菜了”將切分為:“他 的 確切 菜 了”。因此,更好的方法是通過(guò)標(biāo)注來(lái)解決分詞歧義。而標(biāo)注方法又可分為詞性標(biāo)注和概念標(biāo)注兩種。
(2)詞性標(biāo)注。用詞性標(biāo)注方法分別計(jì)算兩種切詞路徑的最大概率值,從中選取概率值較大的詞串作為切分結(jié)果。
(3)概念標(biāo)注。用概念標(biāo)注方法分別計(jì)算兩種切詞路徑的最大概率值,從中選取概率值較大的詞串作為切分結(jié)果。
責(zé)任編輯:admin