當(dāng)前位置：首頁 > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

中文姓名的自動(dòng)辨識(shí)

發(fā)布時(shí)間： 2022-12-20 09:26:16 作者：etogether.net 來源：網(wǎng)絡(luò) 瀏覽次數(shù)：

計(jì)算姓名樣本庫中所有姓名的概率估值后發(fā)現(xiàn)，對(duì)數(shù)概率估值曲線呈陡峭的單峰分布，極高或極低的概率估值均不多，因此，可以設(shè)定概率估值閾值，舍棄那些概率估值小于閾值的候選名字。

2. 具有指示意義的上下文信息

一些上下文信息有助于姓名的辨識(shí)，主要有稱謂、指界動(dòng)詞、匹配模式。這些上下文信息和姓氏頻率表XFL與名字用字頻率表MCFL一起構(gòu)成中文姓名辨識(shí)的知識(shí)源。

稱謂常與名字同時(shí)出現(xiàn)，對(duì)姓名辨識(shí)有指示作用。例如：

“省長李長春趕到了抗災(zāi)現(xiàn)場”。稱謂“省長”指示了姓名的左邊界。

“這是王繼寧教授的學(xué)生”。稱謂“教授”指示了姓名的右邊界。

按和名字的前后順序，可以把稱謂分成三類：

（1）只能用于姓名之后，如“之流”，“閣下”等。

（2）只能用于姓名之前，如“青年”，“戰(zhàn)士”等。

（3）用于姓名前后均可，如“先生”，“市長”等。

一些動(dòng)詞，如“說、是、指出、認(rèn)為、表示、參加”等，常常接在姓名的后面，可以用來幫助確定姓名的右邊界。如：“姬鵬飛指出……”。

某些模式，如“……的〈姓名〉”，“以〈姓名〉為〈稱謂〉”等，也具有界定姓名左右邊界的功效。如：“同濟(jì)大學(xué)的葉冬梅”，“以歐少雄為團(tuán)長的澳門工會(huì)代表團(tuán)”。

3. 姓名辨識(shí)的過程

輸入文本分割成句子，并用最大匹配法分詞之后，對(duì)句中的每個(gè)字加上標(biāo)志。加標(biāo)志主要根據(jù)當(dāng)前字是否為孤立字，是否可做單字詞，是否屬于某個(gè)指界動(dòng)詞，是否屬于某個(gè)稱謂。

接下來尋找句中所有可能的潛在姓名cn，并添加到潛在姓名表CNL中。要求cn的姓氏用字在姓氏頻率表XFL中，而名字用字在名字用字頻率表MCFL中。再計(jì)算cn的概率估值，若cn的概率估值小于閾值，則舍棄之。但是如果cn的每個(gè)字都是孤立字，就要放寬閾值要求。

定義同源對(duì)為以句內(nèi)同一位置為姓氏起點(diǎn)的單名與雙名。定義互斥對(duì)為以句內(nèi)不同位置為姓氏起點(diǎn)，同時(shí)相互間又有交叉的兩個(gè)姓名。同源對(duì)和互斥對(duì)體現(xiàn)了潛在姓名之間的相互制約關(guān)系。如果一個(gè)潛在姓名被肯定，則所有和它同源或互斥的潛在姓名都將從潛在姓名表CNL中刪除。

根據(jù)潛在姓名cn上下文中出現(xiàn)的稱謂、指界動(dòng)詞和特定模式，可以部分地確定cn的左右邊界。若cn的左邊界確定，記為#cn，若cn的右邊界確定，記為cn#。若#cn且cn#，則cn被完全確定為姓名。如果同源對(duì)形如[z1z2z3#，z1z2]，則否定z1z2。如果互斥對(duì)形如[#z1z2z3，z2z3]，則否定z2z3。

互斥對(duì)（cn1,cn2）根據(jù)概率估值來競爭。用lg(p(cn))表示cn的對(duì)數(shù)概率估值。若：圖1.png ，則否定cn2;反之，否定cn1。

實(shí)驗(yàn)表明，上述過程達(dá)到了70.06%的準(zhǔn)確率和99.77%的查全率。

責(zé)任編輯：admin

[上一頁][1] [2] 【歡迎大家踴躍評(píng)論】

上一篇：自然語言歧義的消除
下一篇：復(fù)旦分詞系統(tǒng)介紹

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請(qǐng)30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時(shí)溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

中文姓名的自動(dòng)辨識(shí)

相關(guān)機(jī)器翻譯技術(shù)文章

免費(fèi)在線翻譯

翻譯機(jī)

外語書籍

行業(yè)文章

人工翻譯