把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當前位置:首頁 > 機翻技術(shù) > 識別技術(shù) > 正文

中文姓名的自動辨識

發(fā)布時間: 2022-12-20 09:26:16   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):


計算姓名樣本庫中所有姓名的概率估值后發(fā)現(xiàn),對數(shù)概率估值曲線呈陡峭的單峰分布,極高或極低的概率估值均不多,因此,可以設(shè)定概率估值閾值,舍棄那些概率估值小于閾值的候選名字。


2. 具有指示意義的上下文信息

一些上下文信息有助于姓名的辨識,主要有稱謂、指界動詞、匹配模式。這些上下文信息和姓氏頻率表XFL與名字用字頻率表MCFL一起構(gòu)成中文姓名辨識的知識源。

稱謂常與名字同時出現(xiàn),對姓名辨識有指示作用。例如:

“省長李長春趕到了抗災現(xiàn)場”。稱謂“省長”指示了姓名的左邊界。

“這是王繼寧教授的學生”。稱謂“教授”指示了姓名的右邊界。


按和名字的前后順序,可以把稱謂分成三類:

(1)只能用于姓名之后,如“之流”,“閣下”等。

(2)只能用于姓名之前,如“青年”,“戰(zhàn)士”等。

(3)用于姓名前后均可,如“先生”,“市長”等。

一些動詞,如“說、是、指出、認為、表示、參加”等,常常接在姓名的后面,可以用來幫助確定姓名的右邊界。如:“姬鵬飛指出……”。


某些模式,如“……的〈姓名〉”,“以〈姓名〉為〈稱謂〉”等,也具有界定姓名左右邊界的功效。如:“同濟大學的葉冬梅”,“以歐少雄為團長的澳門工會代表團”。


3. 姓名辨識的過程

輸入文本分割成句子,并用最大匹配法分詞之后,對句中的每個字加上標志。加標志主要根據(jù)當前字是否為孤立字,是否可做單字詞,是否屬于某個指界動詞,是否屬于某個稱謂。


接下來尋找句中所有可能的潛在姓名cn,并添加到潛在姓名表CNL中。要求cn的姓氏用字在姓氏頻率表XFL中,而名字用字在名字用字頻率表MCFL中。再計算cn的概率估值,若cn的概率估值小于閾值,則舍棄之。但是如果cn的每個字都是孤立字,就要放寬閾值要求。


定義同源對為以句內(nèi)同一位置為姓氏起點的單名與雙名。定義互斥對為以句內(nèi)不同位置為姓氏起點,同時相互間又有交叉的兩個姓名。同源對和互斥對體現(xiàn)了潛在姓名之間的相互制約關(guān)系。如果一個潛在姓名被肯定,則所有和它同源或互斥的潛在姓名都將從潛在姓名表CNL中刪除。


根據(jù)潛在姓名cn上下文中出現(xiàn)的稱謂、指界動詞和特定模式,可以部分地確定cn的左右邊界。若cn的左邊界確定,記為#cn,若cn的右邊界確定,記為cn#。若#cn且cn#,則cn被完全確定為姓名。如果同源對形如[z1z2z3#,z1z2],則否定z1z2。如果互斥對形如[#z1z2z3,z2z3],則否定z2z3。


互斥對(cn1,cn2)根據(jù)概率估值來競爭。用lg(p(cn))表示cn的對數(shù)概率估值。若:圖1.png  ,則否定cn2;反之,否定cn1。


實驗表明,上述過程達到了70.06%的準確率和99.77%的查全率。



責任編輯:admin



微信公眾號

[上一頁][1] [2] 【歡迎大家踴躍評論】
  • 上一篇:自然語言歧義的消除
  • 下一篇:復旦分詞系統(tǒng)介紹


  • 《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時溝通與處理。


我來說兩句
評論列表
已有 0 條評論(查看更多評論)