把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當前位置:首頁 > 機翻技術(shù) > 識別技術(shù) > 正文

中文姓名的自動辨識

發(fā)布時間: 2022-12-20 09:26:16   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 中文姓名不像印歐語言那樣,可以通過大寫字母來辨識,而其中的不少姓氏和名字用字又可構(gòu)成普通詞或普通詞的一部分,如果不加以...


中文姓名的自動辨識對中文信息處理的重要性是不言而喻的。中文姓名不像印歐語言那樣,可以通過大寫字母來辨識,而其中的不少姓氏和名字用字又可構(gòu)成普通詞或普通詞的一部分,如果不加以處理,將導致相當數(shù)量的分詞錯誤,輕微的,將把姓名拆成字串;嚴重的,還將造成錯誤的蔓延現(xiàn)象。這些都給姓名辨識造成了很大難度。


姓名辨識主要利用的信息包括:中文姓名的用字規(guī)律,姓名用字的使用頻率,以及姓名上下文。


1. 姓氏頻率表與名字用字頻率表

通過對174,900個中文姓名進行抽樣綜合統(tǒng)計的結(jié)果,建立姓氏頻率表XFL與名字用字頻率表MCFL,并從中發(fā)現(xiàn),中文姓名的用字有以下幾個規(guī)律:


(1)統(tǒng)計得到的姓氏不多,僅為729個,分布很不均勻,但相對集中。前5大姓“王、陳、李、張、劉”占了姓名樣本庫的32.0%,前365個姓占99.0%,而其余364個姓氏僅占不到1.0%。

(2)某些姓氏可用作單字詞,其中不乏高頻單字詞,例如常見姓氏“王、黃、馬、高、于”和不常見姓氏“是、過、來、從、那”。

(3)統(tǒng)計得到3345個名字用字。名字用字的分布較姓氏要平緩、分散,涉及的范圍很廣,從所屬的詞類上看,不僅有實詞,也有各類虛詞。

(4)某些漢字既可用作姓氏,又可用作名字用字。如“林、方、金、江、柳”。

(5)根據(jù)構(gòu)詞能力,名字用字可以劃分成三類:即可用作單字詞的開放式名字用字,雖不可用作單字詞,但可構(gòu)詞的相對封閉式名字用字,以及既不可用作單字詞,又不可構(gòu)詞的絕對封閉式名字用字。例如“愛”、“睿”、“逵”就分別屬于這三類字。


一般說來,中文姓名分單名sn和雙名pn兩類。其中,

單名形如:sn=x(姓氏)m?(名字首字);

雙名形如:pn=x(姓氏)m?(名字首字)m2(名字末字)。


令fx(x∈姓氏)表示姓氏x的使用頻率;

fm(mi∈名字用字,i=1,2)表示名字用字mi的使用頻率。


根據(jù)表XFL及MCFL,可給出姓名的概率估值:

p(sn)=fx(x)×fm(m?),以及p(pn)=fx(x)×fm(m?)×fm(m?)。



微信公眾號

[1] [2] [下一頁] 【歡迎大家踴躍評論】
  • 上一篇:自然語言歧義的消除
  • 下一篇:復(fù)旦分詞系統(tǒng)介紹


  • 《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時溝通與處理。


我來說兩句
評論列表
已有 0 條評論(查看更多評論)