把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    超值滿減    人工翻譯    英語IT服務 貧困兒童資助 | 留言板 | 設為首頁 | 加入收藏  繁體中文
當前位置:首頁 > 機翻技術 > 識別技術 > 正文

自動分詞的原則

發(fā)布時間: 2022-12-06 09:18:29   作者:etogether.net   來源: 網(wǎng)絡   瀏覽次數(shù):
摘要: 分詞單位的選取,一般情況下要以分詞規(guī)范為準,但還要考慮具體的應用環(huán)境,靈活地加以控制。


自動分詞系統(tǒng)只是中文信息處理系統(tǒng)的一部分,分詞本身并不是目的,而只是后續(xù)過程的必備手段。分詞單位的選取,一般情況下要以分詞規(guī)范為準,但還要考慮具體的應用環(huán)境,靈活地加以控制,此外,還需兼顧大規(guī)模語料庫處理的特殊要求。因此,自動分詞原則應包括以下幾點:


(1)分詞單位的選取必須有利于標注、句法分析等后續(xù)過程的處理。這一點具體地體現(xiàn)在某些詞組的處理上,這些詞組包括數(shù)字詞組(如:五分之三),時間詞組(如:三月六日),人名(如:張勝利)等。分詞規(guī)范規(guī)定:構成分詞單位的詞組必須具備結合緊密的特征,而分開后不改變原有組合意義的詞組,則一律加以切分。按照這項規(guī)定,這些詞組將被進一步切分;另外,在前綴詞和后綴詞的處理上,分詞規(guī)范也作了類似的規(guī)定。實際上,這些詞組在具體的上下文環(huán)境中合起來表達一個概念,作為一個分詞單位更能符合后續(xù)處理的需要,我們沒有必要在分詞階段把它們切分開,然后又費很大的精力在分析階段再把分詞單位合成為短語。


(2)分詞準確率是分詞系統(tǒng)最重要的性能指標。單純的分詞系統(tǒng)一般要同時兼顧切分精度和切分速度兩個指標。而作為中文信息處理子系統(tǒng)的分詞系統(tǒng),其準確率直接影響著后續(xù)過程的準確率,同時,分詞速度遠遠高于標注、分析等過程,不構成系統(tǒng)的處理瓶頸,即使采用較為復雜的方案,所需的處理時間仍遠少于后續(xù)過程。這就使我們可以把主要的精力放在提高處理精度上來。


(3)為處理大規(guī)模的語料,要求系統(tǒng)有較好的容錯性能。另外,分詞詞典必須有良好的可擴充性,具備從語料庫中自動學習的能力。


(4)分詞系統(tǒng)必須有較好的可移植性??梢浦残员硎緩囊粋€計算機系統(tǒng)或環(huán)境轉移到另一個系統(tǒng)或環(huán)境的容易程度。一個好的分詞系統(tǒng)不應該只能在一種環(huán)境下運行,而應該在稍作修改的情況下,就能移植到另一個系統(tǒng)中。


責任編輯:admin


微信公眾號

  • 上一篇:機械分詞方法
  • 下一篇:自然語言處理中新趨勢的特征


  • 《譯聚網(wǎng)》倡導尊重與保護知識產權。如發(fā)現(xiàn)本站文章存在版權問題,煩請30天內提供版權疑問、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時溝通與處理。


我來說兩句
評論列表
已有 0 條評論(查看更多評論)