- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
自動分詞系統(tǒng)只是中文信息處理系統(tǒng)的一部分,分詞本身并不是目的,而只是后續(xù)過程的必備手段。分詞單位的選取,一般情況下要以分詞規(guī)范為準,但還要考慮具體的應用環(huán)境,靈活地加以控制,此外,還需兼顧大規(guī)模語料庫處理的特殊要求。因此,自動分詞原則應包括以下幾點:
(1)分詞單位的選取必須有利于標注、句法分析等后續(xù)過程的處理。這一點具體地體現(xiàn)在某些詞組的處理上,這些詞組包括數(shù)字詞組(如:五分之三),時間詞組(如:三月六日),人名(如:張勝利)等。分詞規(guī)范規(guī)定:構成分詞單位的詞組必須具備結合緊密的特征,而分開后不改變原有組合意義的詞組,則一律加以切分。按照這項規(guī)定,這些詞組將被進一步切分;另外,在前綴詞和后綴詞的處理上,分詞規(guī)范也作了類似的規(guī)定。實際上,這些詞組在具體的上下文環(huán)境中合起來表達一個概念,作為一個分詞單位更能符合后續(xù)處理的需要,我們沒有必要在分詞階段把它們切分開,然后又費很大的精力在分析階段再把分詞單位合成為短語。
(2)分詞準確率是分詞系統(tǒng)最重要的性能指標。單純的分詞系統(tǒng)一般要同時兼顧切分精度和切分速度兩個指標。而作為中文信息處理子系統(tǒng)的分詞系統(tǒng),其準確率直接影響著后續(xù)過程的準確率,同時,分詞速度遠遠高于標注、分析等過程,不構成系統(tǒng)的處理瓶頸,即使采用較為復雜的方案,所需的處理時間仍遠少于后續(xù)過程。這就使我們可以把主要的精力放在提高處理精度上來。
(3)為處理大規(guī)模的語料,要求系統(tǒng)有較好的容錯性能。另外,分詞詞典必須有良好的可擴充性,具備從語料庫中自動學習的能力。
(4)分詞系統(tǒng)必須有較好的可移植性??梢浦残员硎緩囊粋€計算機系統(tǒng)或環(huán)境轉移到另一個系統(tǒng)或環(huán)境的容易程度。一個好的分詞系統(tǒng)不應該只能在一種環(huán)境下運行,而應該在稍作修改的情況下,就能移植到另一個系統(tǒng)中。
責任編輯:admin