把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會(huì)員中心 |  會(huì)員注冊  |  兼職信息發(fā)布    瀏覽手機(jī)版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當(dāng)前位置:首頁 > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

自然語言歧義的消除

發(fā)布時(shí)間: 2022-12-22 09:22:16   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):


對于語法分析來說,句子級(jí)的衡量標(biāo)準(zhǔn)更有意義一些。在同樣的詞級(jí)性能評(píng)價(jià)下,錯(cuò)誤的標(biāo)注出現(xiàn)得越集中(如:很多錯(cuò)誤發(fā)生在一個(gè)句子中),對語法分析的評(píng)價(jià)越有利,這是因?yàn)檎Z法分析的性能是按句子來衡量的。但對于語義分析,其基本要求是更多的正確概念,詞級(jí)的評(píng)價(jià)標(biāo)準(zhǔn)更好,因?yàn)榻?jīng)常標(biāo)注錯(cuò)誤的虛詞類概念在語義分析中并不起多大作用,而虛詞特別是一些小品詞的歧義通常是最多和最難以確定的。這種情況下甚至可以僅僅用正確標(biāo)注的實(shí)詞比例來評(píng)價(jià)標(biāo)注性能。


在標(biāo)注問題的概率公式中,我們假設(shè)(W,T)組合可以通過一個(gè)關(guān)于概率分布p(W,T)的概率模型產(chǎn)生。在這種情況下,最優(yōu)的標(biāo)注過程根據(jù)不同的評(píng)價(jià)準(zhǔn)則可以有如下兩種。

(1)句子級(jí)評(píng)價(jià),選擇句子的最有可能性的標(biāo)記序列。

圖3.png

這個(gè)過程我們稱之為Viterbi標(biāo)注,它可以通過使用一種動(dòng)態(tài)規(guī)劃策略實(shí)現(xiàn)。


(2)詞級(jí)評(píng)價(jià),對句子中的每個(gè)詞選取最有可能的標(biāo)記。


圖4.png


這里v(wi)是標(biāo)注過程根據(jù)句子中的上下文信息賦于詞wi的標(biāo)記,這個(gè)過程我們稱之為最大似然標(biāo)注或ML標(biāo)注。


盡管Viterbi標(biāo)注在詞級(jí)評(píng)價(jià)上不是最優(yōu)的,但它卻是最常用的一個(gè)標(biāo)注算法,主要原因如下:


(1)Viterbi標(biāo)注提供的最優(yōu)狀態(tài)序列(標(biāo)記序列)能更好地描述句子,在語法上的解釋很吸引人。

(2)最大似然標(biāo)注可能產(chǎn)生一些語法上不可能出現(xiàn)的標(biāo)記序列。


然而,根據(jù)實(shí)際標(biāo)注結(jié)果的比較,可以發(fā)現(xiàn),兩者非常近似,差別并不明顯。

真實(shí)文本條件下,在標(biāo)注過程中一個(gè)詞的概念的確定要比詞性的確定需要更多的上下文,即:考慮同樣多的上下文時(shí),概念標(biāo)注的結(jié)果要比詞性標(biāo)注差一些。但語義分析的具體要求一般不如語法分析嚴(yán)格,只需給出帶來重大歧義的詞的標(biāo)記即可。

在考慮不同數(shù)量的上下文的情況下,我們可以建立如下的隨機(jī)語言模型:


兩步模型:

※當(dāng)前考查的詞wi的正確標(biāo)記ti僅依賴于當(dāng)前詞的直接前趨詞wi-1及其標(biāo)記ti-1。


三步模型:

※當(dāng)前考查的詞wi的正確標(biāo)記ti僅依賴于當(dāng)前詞的前趨詞wi-1、wi-2及其標(biāo)記ti-1、ti-2。


以上兩個(gè)模型都是問題實(shí)際模型的一個(gè)近似,形式上看考慮更多的上下文因素的更復(fù)雜的模型可能會(huì)更接近實(shí)際模型,但是實(shí)際上考慮更多的上下文,意味著不僅需要更大的計(jì)算機(jī)存儲(chǔ)容量和計(jì)算時(shí)間,而且模型中會(huì)出現(xiàn)更多的參數(shù),以及為使這些參數(shù)得到充分的訓(xùn)練而要求更多的訓(xùn)練語料。對于任何一種標(biāo)記分類標(biāo)準(zhǔn)而言,人工標(biāo)注十幾萬詞的訓(xùn)練語料已經(jīng)不是一件輕松的事。若Nw表示詞典的大小,Nr表示每個(gè)詞最多的可能的標(biāo)記個(gè)數(shù),兩步模型最多可能的參數(shù)個(gè)數(shù)約為:Nw×VT,三步模型最多可能的參數(shù)個(gè)數(shù)為:Nw×NT×NT。事實(shí)上對上述兩個(gè)模型來說,對于94類的概念標(biāo)注,即使是一個(gè)很小的三、四萬詞的詞典,語料不充分的情況就已經(jīng)十分嚴(yán)重,大量的(詞匯、標(biāo)記)對,(標(biāo)記、標(biāo)記、標(biāo)記)對根本沒有機(jī)會(huì)在一個(gè)只有十幾萬詞的訓(xùn)練語料中出現(xiàn)。盡管引入的小概率估計(jì)方法可以使情況有所改善,但并不能從根本上解決問題,模型中大量未經(jīng)訓(xùn)練的參數(shù)將導(dǎo)致模型的不穩(wěn)定并直接影響標(biāo)注效果,因而其實(shí)際效果并不一定總比兩步模型要好。


責(zé)任編輯:admin


微信公眾號(hào)

[上一頁][1] [2] 【歡迎大家踴躍評(píng)論】
  • 上一篇:使用Python進(jìn)行文本分類
  • 下一篇:中文姓名的自動(dòng)辨識(shí)


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時(shí)溝通與處理。


我來說兩句
評(píng)論列表
已有 0 條評(píng)論(查看更多評(píng)論)