- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
此外,還有一種稱(chēng)為“島驅(qū)動(dòng)”的掃描方式,優(yōu)先在語(yǔ)料中切分一些詞,以這些詞為斷點(diǎn)將語(yǔ)料斷開(kāi),再對(duì)各分段進(jìn)行切分。
機(jī)械分詞方法設(shè)計(jì)簡(jiǎn)單,易于實(shí)現(xiàn)。但是由于分詞是一個(gè)智能過(guò)程,僅用機(jī)械方法分詞,不可避免地存在著嚴(yán)重的缺陷,無(wú)法解決分詞階段的兩大問(wèn)題:歧義切分問(wèn)題和未登錄詞識(shí)別問(wèn)題,影響了分詞的準(zhǔn)確率。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配,其錯(cuò)誤率為1/169,而逆向最大匹配的錯(cuò)誤率也達(dá)到了1/245【2.!】,還遠(yuǎn)不能滿(mǎn)足實(shí)際需要。實(shí)用的分詞系統(tǒng),只能把機(jī)械分詞作為一種初分手段,然后再通過(guò)各種知識(shí),包括分詞規(guī)則、統(tǒng)計(jì)知識(shí),以及句法、語(yǔ)義和上下文信息,來(lái)處理初步分詞的結(jié)果,以進(jìn)一步提高分詞的準(zhǔn)確率。
第二、機(jī)械分詞方法的局限性
1. 歧義切分問(wèn)題
歧義切分字段指的是同樣的一串漢字,按照不同的方法,可以切分成不同的結(jié)果。具體地,又可以進(jìn)一步分為交集歧義字段和多義組合歧義字段。統(tǒng)計(jì)結(jié)果表明,在漢語(yǔ)文本中,歧義現(xiàn)象的出現(xiàn)概率約為1/110,其中約有90%是交集型歧義字段,剩下的10%是多義組合歧義字段。
所謂交集歧義字段,是指字段AJB,它既可切分為AJ/B,又可切分為A/JB,其中J稱(chēng)為交集字串。例如,字串“需求和規(guī)格說(shuō)明”,按正向匹配,切分為“需求和規(guī)格說(shuō)明”;而按逆向匹配;則切分為“需求和規(guī)格說(shuō)明”?!靶枨蠛汀奔礊榻患缌x字段,“求”為交集字串。這類(lèi)例子還有:“不安定因素”,“一只白天鵝”。
正向匹配:“不 安定 因素”“一 只 白天 鵝”。
逆向匹配:“不安 定 因素”“一 只 白 天鵝”。
歧義字段:“不安定”“白天鵝”。
所謂多義組合歧義字段,是指字段AB,其中不僅AB成詞,A、B還可分別獨(dú)立成詞。例如,字串“他將來(lái)上?!敝械摹皩?lái)”即為多義組合歧義字段。而各種機(jī)械匹配方法都將錯(cuò)誤地切分為“他 將來(lái) 上?!薄3R?jiàn)的多義組合字段還有“四周”,“馬上”等。
“四周一片寂靜”,“四周前他去北京了”。
“他馬上就走”,“他從馬上下來(lái)”。
歧義切分的情況是相當(dāng)復(fù)雜的,最簡(jiǎn)單的歧義字段僅牽涉到兩個(gè)詞,復(fù)雜的能牽涉到多個(gè)詞,例如字串“結(jié)合成分子時(shí)”就牽涉到多個(gè)雙字詞和單字詞,即有交集歧義字段,又有多義組合歧義字段,給歧義處理造成了很大的困難。
2. 未登錄詞識(shí)別問(wèn)題
漢語(yǔ)有幾百萬(wàn)個(gè)詞,一部詞典不可能也沒(méi)有必要將所有的詞匯全部放入。一般認(rèn)為,理想的詞典大小應(yīng)該為五萬(wàn)到十萬(wàn)詞,這樣就產(chǎn)生了未登錄詞識(shí)別的問(wèn)題。具體地,未登錄詞識(shí)別又可分為幾種情況,包括歸并時(shí)間詞和數(shù)詞,根據(jù)構(gòu)詞法處理疊宇、疊詞等構(gòu)詞現(xiàn)象,識(shí)別人名、地名和領(lǐng)域?qū)S性~匯。這些問(wèn)題都不能通過(guò)簡(jiǎn)單的機(jī)械匹配方法解決,而必須結(jié)合知識(shí)和統(tǒng)計(jì)的方法加以處理。
責(zé)任編輯:admin