- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
機(jī)械分詞方法指的是主要依據(jù)詞典信息,而不使用規(guī)則知識和統(tǒng)計(jì)信息,按一定的策略將漢字串與詞典中的詞逐一匹配;如果匹配成功,一就加以切分。按照掃描方向的不同,機(jī)械分詞方法可以分為正向匹配和逆向匹配;按照不同長度詞的優(yōu)先情況,可以分為最大匹配和最小匹配。最大匹配優(yōu)先切分長度較長的詞,最小匹配優(yōu)先切分長度較短的詞。這幾種方法相互結(jié)合,就構(gòu)成了以下幾種常見的機(jī)械分詞方法。
第一、機(jī)械分詞方法簡介
1. 正向最大匹配
用MAXL表示最大詞長,按照從左到右的順序,首先從漢字串中取長度為MAXL的子串查詞典。若詞典中存在這個(gè)詞,則切分出這一子串,指針后移MAXL個(gè)漢字后繼續(xù)切分,否則,子串長度減一,再與詞典匹配。若長度為2的子串還不能在詞典中查到,則取當(dāng)前漢字為詞,指針后移一個(gè)漢字繼續(xù)匹配。
2. 正向最小匹配
和正向最大匹配一樣,按照從左到右的順序,首先從漢字串中取長度為2的子串查詞典。若詞典中存在這個(gè)詞,則切分出該子串,指針后移2個(gè)漢字,否則,子串長度逐次加一繼續(xù)匹配。若一直到長度為MAXL的子串仍無法匹配,則切分出當(dāng)前漢字。
現(xiàn)在用兩種正向匹配方法切分句子“后天我們?nèi)ケ本?,設(shè)最大詞長為4,兩種方法的匹配詞序依次是:
正向最大匹配:后天我們 后天我 后天 我們?nèi)ケ?nbsp; 我們?nèi)?nbsp; 我們 去北京 去北 去 北京。
正向最小匹配:后天 我們 去北 去北京 去 北京。
兩種方法最后都得到正確的切分結(jié)果:后天 我們?nèi)ケ本?/p>
3. 逆向匹配
逆向匹配同樣也分為逆向最大匹配和逆向最小匹配。和正向匹配不同的是,切分漢字串時(shí),不是按漢字順序從左到右抽取子串,而是從漢字串尾端開始抽取。以上句為例,兩種逆向匹配方法的匹配詞序依次是:
逆向最大匹配:們?nèi)ケ本?nbsp; 去北京 北京 天我們?nèi)?nbsp; 我們?nèi)?nbsp; 們?nèi)?nbsp; 去 后天我們 天我們 我們 后天。
逆向最小匹配:北京 們?nèi)?我們?nèi)?天我們?nèi)?nbsp; 去 我們 后天。
最后也都得到了正確的切分結(jié)果。
一般說來,逆向匹配的切分精度略高于正向匹配,產(chǎn)生的歧義現(xiàn)象也較少。例如,對于句子“研究生命起源”,用正向最大匹配和正向最小匹配方法切分,分別得到“研究生命 起源”和“研究 生命起源”,其中前一種切分結(jié)果是錯(cuò)誤的。而兩種逆向匹配方法都能得到正確的切分結(jié)果“研究 生命 起源”。