- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
計算姓名樣本庫中所有姓名的概率估值后發(fā)現(xiàn),對數(shù)概率估值曲線呈陡峭的單峰分布,極高或極低的概率估值均不多,因此,可以設(shè)定概率估值閾值,舍棄那些概率估值小于閾值的候選名字。
2. 具有指示意義的上下文信息
一些上下文信息有助于姓名的辨識,主要有稱謂、指界動詞、匹配模式。這些上下文信息和姓氏頻率表XFL與名字用字頻率表MCFL一起構(gòu)成中文姓名辨識的知識源。
稱謂常與名字同時出現(xiàn),對姓名辨識有指示作用。例如:
“省長李長春趕到了抗災現(xiàn)場”。稱謂“省長”指示了姓名的左邊界。
“這是王繼寧教授的學生”。稱謂“教授”指示了姓名的右邊界。
按和名字的前后順序,可以把稱謂分成三類:
(1)只能用于姓名之后,如“之流”,“閣下”等。
(2)只能用于姓名之前,如“青年”,“戰(zhàn)士”等。
(3)用于姓名前后均可,如“先生”,“市長”等。
一些動詞,如“說、是、指出、認為、表示、參加”等,常常接在姓名的后面,可以用來幫助確定姓名的右邊界。如:“姬鵬飛指出……”。
某些模式,如“……的〈姓名〉”,“以〈姓名〉為〈稱謂〉”等,也具有界定姓名左右邊界的功效。如:“同濟大學的葉冬梅”,“以歐少雄為團長的澳門工會代表團”。
3. 姓名辨識的過程
輸入文本分割成句子,并用最大匹配法分詞之后,對句中的每個字加上標志。加標志主要根據(jù)當前字是否為孤立字,是否可做單字詞,是否屬于某個指界動詞,是否屬于某個稱謂。
接下來尋找句中所有可能的潛在姓名cn,并添加到潛在姓名表CNL中。要求cn的姓氏用字在姓氏頻率表XFL中,而名字用字在名字用字頻率表MCFL中。再計算cn的概率估值,若cn的概率估值小于閾值,則舍棄之。但是如果cn的每個字都是孤立字,就要放寬閾值要求。
定義同源對為以句內(nèi)同一位置為姓氏起點的單名與雙名。定義互斥對為以句內(nèi)不同位置為姓氏起點,同時相互間又有交叉的兩個姓名。同源對和互斥對體現(xiàn)了潛在姓名之間的相互制約關(guān)系。如果一個潛在姓名被肯定,則所有和它同源或互斥的潛在姓名都將從潛在姓名表CNL中刪除。
根據(jù)潛在姓名cn上下文中出現(xiàn)的稱謂、指界動詞和特定模式,可以部分地確定cn的左右邊界。若cn的左邊界確定,記為#cn,若cn的右邊界確定,記為cn#。若#cn且cn#,則cn被完全確定為姓名。如果同源對形如[z1z2z3#,z1z2],則否定z1z2。如果互斥對形如[#z1z2z3,z2z3],則否定z2z3。
互斥對(cn1,cn2)根據(jù)概率估值來競爭。用lg(p(cn))表示cn的對數(shù)概率估值。若: ,則否定cn2;反之,否定cn1。
實驗表明,上述過程達到了70.06%的準確率和99.77%的查全率。
責任編輯:admin