- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
計(jì)算姓名樣本庫中所有姓名的概率估值后發(fā)現(xiàn),對(duì)數(shù)概率估值曲線呈陡峭的單峰分布,極高或極低的概率估值均不多,因此,可以設(shè)定概率估值閾值,舍棄那些概率估值小于閾值的候選名字。
2. 具有指示意義的上下文信息
一些上下文信息有助于姓名的辨識(shí),主要有稱謂、指界動(dòng)詞、匹配模式。這些上下文信息和姓氏頻率表XFL與名字用字頻率表MCFL一起構(gòu)成中文姓名辨識(shí)的知識(shí)源。
稱謂常與名字同時(shí)出現(xiàn),對(duì)姓名辨識(shí)有指示作用。例如:
“省長李長春趕到了抗災(zāi)現(xiàn)場”。稱謂“省長”指示了姓名的左邊界。
“這是王繼寧教授的學(xué)生”。稱謂“教授”指示了姓名的右邊界。
按和名字的前后順序,可以把稱謂分成三類:
(1)只能用于姓名之后,如“之流”,“閣下”等。
(2)只能用于姓名之前,如“青年”,“戰(zhàn)士”等。
(3)用于姓名前后均可,如“先生”,“市長”等。
一些動(dòng)詞,如“說、是、指出、認(rèn)為、表示、參加”等,常常接在姓名的后面,可以用來幫助確定姓名的右邊界。如:“姬鵬飛指出……”。
某些模式,如“……的〈姓名〉”,“以〈姓名〉為〈稱謂〉”等,也具有界定姓名左右邊界的功效。如:“同濟(jì)大學(xué)的葉冬梅”,“以歐少雄為團(tuán)長的澳門工會(huì)代表團(tuán)”。
3. 姓名辨識(shí)的過程
輸入文本分割成句子,并用最大匹配法分詞之后,對(duì)句中的每個(gè)字加上標(biāo)志。加標(biāo)志主要根據(jù)當(dāng)前字是否為孤立字,是否可做單字詞,是否屬于某個(gè)指界動(dòng)詞,是否屬于某個(gè)稱謂。
接下來尋找句中所有可能的潛在姓名cn,并添加到潛在姓名表CNL中。要求cn的姓氏用字在姓氏頻率表XFL中,而名字用字在名字用字頻率表MCFL中。再計(jì)算cn的概率估值,若cn的概率估值小于閾值,則舍棄之。但是如果cn的每個(gè)字都是孤立字,就要放寬閾值要求。
定義同源對(duì)為以句內(nèi)同一位置為姓氏起點(diǎn)的單名與雙名。定義互斥對(duì)為以句內(nèi)不同位置為姓氏起點(diǎn),同時(shí)相互間又有交叉的兩個(gè)姓名。同源對(duì)和互斥對(duì)體現(xiàn)了潛在姓名之間的相互制約關(guān)系。如果一個(gè)潛在姓名被肯定,則所有和它同源或互斥的潛在姓名都將從潛在姓名表CNL中刪除。
根據(jù)潛在姓名cn上下文中出現(xiàn)的稱謂、指界動(dòng)詞和特定模式,可以部分地確定cn的左右邊界。若cn的左邊界確定,記為#cn,若cn的右邊界確定,記為cn#。若#cn且cn#,則cn被完全確定為姓名。如果同源對(duì)形如[z1z2z3#,z1z2],則否定z1z2。如果互斥對(duì)形如[#z1z2z3,z2z3],則否定z2z3。
互斥對(duì)(cn1,cn2)根據(jù)概率估值來競爭。用lg(p(cn))表示cn的對(duì)數(shù)概率估值。若: ,則否定cn2;反之,否定cn1。
實(shí)驗(yàn)表明,上述過程達(dá)到了70.06%的準(zhǔn)確率和99.77%的查全率。
責(zé)任編輯:admin