- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
自動(dòng)分詞系統(tǒng)只是中文信息處理系統(tǒng)的一部分,分詞本身并不是目的,而只是后續(xù)過程的必備手段。分詞單位的選取,一般情況下要以分詞規(guī)范為準(zhǔn),但還要考慮具體的應(yīng)用環(huán)境,靈活地加以控制,此外,還需兼顧大規(guī)模語料庫處理的特殊要求。因此,自動(dòng)分詞原則應(yīng)包括以下幾點(diǎn):
(1)分詞單位的選取必須有利于標(biāo)注、句法分析等后續(xù)過程的處理。這一點(diǎn)具體地體現(xiàn)在某些詞組的處理上,這些詞組包括數(shù)字詞組(如:五分之三),時(shí)間詞組(如:三月六日),人名(如:張勝利)等。分詞規(guī)范規(guī)定:構(gòu)成分詞單位的詞組必須具備結(jié)合緊密的特征,而分開后不改變原有組合意義的詞組,則一律加以切分。按照這項(xiàng)規(guī)定,這些詞組將被進(jìn)一步切分;另外,在前綴詞和后綴詞的處理上,分詞規(guī)范也作了類似的規(guī)定。實(shí)際上,這些詞組在具體的上下文環(huán)境中合起來表達(dá)一個(gè)概念,作為一個(gè)分詞單位更能符合后續(xù)處理的需要,我們沒有必要在分詞階段把它們切分開,然后又費(fèi)很大的精力在分析階段再把分詞單位合成為短語。
(2)分詞準(zhǔn)確率是分詞系統(tǒng)最重要的性能指標(biāo)。單純的分詞系統(tǒng)一般要同時(shí)兼顧切分精度和切分速度兩個(gè)指標(biāo)。而作為中文信息處理子系統(tǒng)的分詞系統(tǒng),其準(zhǔn)確率直接影響著后續(xù)過程的準(zhǔn)確率,同時(shí),分詞速度遠(yuǎn)遠(yuǎn)高于標(biāo)注、分析等過程,不構(gòu)成系統(tǒng)的處理瓶頸,即使采用較為復(fù)雜的方案,所需的處理時(shí)間仍遠(yuǎn)少于后續(xù)過程。這就使我們可以把主要的精力放在提高處理精度上來。
(3)為處理大規(guī)模的語料,要求系統(tǒng)有較好的容錯(cuò)性能。另外,分詞詞典必須有良好的可擴(kuò)充性,具備從語料庫中自動(dòng)學(xué)習(xí)的能力。
(4)分詞系統(tǒng)必須有較好的可移植性??梢浦残员硎緩囊粋€(gè)計(jì)算機(jī)系統(tǒng)或環(huán)境轉(zhuǎn)移到另一個(gè)系統(tǒng)或環(huán)境的容易程度。一個(gè)好的分詞系統(tǒng)不應(yīng)該只能在一種環(huán)境下運(yùn)行,而應(yīng)該在稍作修改的情況下,就能移植到另一個(gè)系統(tǒng)中。
責(zé)任編輯:admin