把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識別技術(shù) > 正文

自動(dòng)分詞的原則

發(fā)布時(shí)間: 2022-12-06 09:18:29   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 分詞單位的選取,一般情況下要以分詞規(guī)范為準(zhǔn),但還要考慮具體的應(yīng)用環(huán)境,靈活地加以控制。


自動(dòng)分詞系統(tǒng)只是中文信息處理系統(tǒng)的一部分,分詞本身并不是目的,而只是后續(xù)過程的必備手段。分詞單位的選取,一般情況下要以分詞規(guī)范為準(zhǔn),但還要考慮具體的應(yīng)用環(huán)境,靈活地加以控制,此外,還需兼顧大規(guī)模語料庫處理的特殊要求。因此,自動(dòng)分詞原則應(yīng)包括以下幾點(diǎn):


(1)分詞單位的選取必須有利于標(biāo)注、句法分析等后續(xù)過程的處理。這一點(diǎn)具體地體現(xiàn)在某些詞組的處理上,這些詞組包括數(shù)字詞組(如:五分之三),時(shí)間詞組(如:三月六日),人名(如:張勝利)等。分詞規(guī)范規(guī)定:構(gòu)成分詞單位的詞組必須具備結(jié)合緊密的特征,而分開后不改變原有組合意義的詞組,則一律加以切分。按照這項(xiàng)規(guī)定,這些詞組將被進(jìn)一步切分;另外,在前綴詞和后綴詞的處理上,分詞規(guī)范也作了類似的規(guī)定。實(shí)際上,這些詞組在具體的上下文環(huán)境中合起來表達(dá)一個(gè)概念,作為一個(gè)分詞單位更能符合后續(xù)處理的需要,我們沒有必要在分詞階段把它們切分開,然后又費(fèi)很大的精力在分析階段再把分詞單位合成為短語。


(2)分詞準(zhǔn)確率是分詞系統(tǒng)最重要的性能指標(biāo)。單純的分詞系統(tǒng)一般要同時(shí)兼顧切分精度和切分速度兩個(gè)指標(biāo)。而作為中文信息處理子系統(tǒng)的分詞系統(tǒng),其準(zhǔn)確率直接影響著后續(xù)過程的準(zhǔn)確率,同時(shí),分詞速度遠(yuǎn)遠(yuǎn)高于標(biāo)注、分析等過程,不構(gòu)成系統(tǒng)的處理瓶頸,即使采用較為復(fù)雜的方案,所需的處理時(shí)間仍遠(yuǎn)少于后續(xù)過程。這就使我們可以把主要的精力放在提高處理精度上來。


(3)為處理大規(guī)模的語料,要求系統(tǒng)有較好的容錯(cuò)性能。另外,分詞詞典必須有良好的可擴(kuò)充性,具備從語料庫中自動(dòng)學(xué)習(xí)的能力。


(4)分詞系統(tǒng)必須有較好的可移植性??梢浦残员硎緩囊粋€(gè)計(jì)算機(jī)系統(tǒng)或環(huán)境轉(zhuǎn)移到另一個(gè)系統(tǒng)或環(huán)境的容易程度。一個(gè)好的分詞系統(tǒng)不應(yīng)該只能在一種環(huán)境下運(yùn)行,而應(yīng)該在稍作修改的情況下,就能移植到另一個(gè)系統(tǒng)中。


責(zé)任編輯:admin


微信公眾號

  • 上一篇:機(jī)械分詞方法
  • 下一篇:自然語言處理中新趨勢的特征


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時(shí)溝通與處理。


我來說兩句
評論列表
已有 0 條評論(查看更多評論)