自然語言歧義的消除

發(fā)布時間： 2022-12-22 09:22:16 作者：etogether.net 來源：網(wǎng)絡瀏覽次數(shù)：

對于語法分析來說，句子級的衡量標準更有意義一些。在同樣的詞級性能評價下，錯誤的標注出現(xiàn)得越集中（如：很多錯誤發(fā)生在一個句子中），對語法分析的評價越有利，這是因為語法分析的性能是按句子來衡量的。但對于語義分析，其基本要求是更多的正確概念，詞級的評價標準更好，因為經(jīng)常標注錯誤的虛詞類概念在語義分析中并不起多大作用，而虛詞特別是一些小品詞的歧義通常是最多和最難以確定的。這種情況下甚至可以僅僅用正確標注的實詞比例來評價標注性能。

在標注問題的概率公式中，我們假設（W，T）組合可以通過一個關(guān)于概率分布p(W,T)的概率模型產(chǎn)生。在這種情況下，最優(yōu)的標注過程根據(jù)不同的評價準則可以有如下兩種。

（1）句子級評價，選擇句子的最有可能性的標記序列。

圖3.png

這個過程我們稱之為Viterbi標注，它可以通過使用一種動態(tài)規(guī)劃策略實現(xiàn)。

（2）詞級評價，對句子中的每個詞選取最有可能的標記。

圖4.png

這里v(wi)是標注過程根據(jù)句子中的上下文信息賦于詞wi的標記，這個過程我們稱之為最大似然標注或ML標注。

盡管Viterbi標注在詞級評價上不是最優(yōu)的，但它卻是最常用的一個標注算法，主要原因如下：

（1）Viterbi標注提供的最優(yōu)狀態(tài)序列（標記序列）能更好地描述句子，在語法上的解釋很吸引人。

（2）最大似然標注可能產(chǎn)生一些語法上不可能出現(xiàn)的標記序列。

然而，根據(jù)實際標注結(jié)果的比較，可以發(fā)現(xiàn)，兩者非常近似，差別并不明顯。

真實文本條件下，在標注過程中一個詞的概念的確定要比詞性的確定需要更多的上下文，即：考慮同樣多的上下文時，概念標注的結(jié)果要比詞性標注差一些。但語義分析的具體要求一般不如語法分析嚴格，只需給出帶來重大歧義的詞的標記即可。

在考慮不同數(shù)量的上下文的情況下，我們可以建立如下的隨機語言模型：

兩步模型：

※當前考查的詞wi的正確標記ti僅依賴于當前詞的直接前趨詞wi-1及其標記ti-1。

三步模型：

※當前考查的詞wi的正確標記ti僅依賴于當前詞的前趨詞wi-1、wi-2及其標記ti-1、ti-2。

以上兩個模型都是問題實際模型的一個近似，形式上看考慮更多的上下文因素的更復雜的模型可能會更接近實際模型，但是實際上考慮更多的上下文，意味著不僅需要更大的計算機存儲容量和計算時間，而且模型中會出現(xiàn)更多的參數(shù)，以及為使這些參數(shù)得到充分的訓練而要求更多的訓練語料。對于任何一種標記分類標準而言，人工標注十幾萬詞的訓練語料已經(jīng)不是一件輕松的事。若Nw表示詞典的大小，Nr表示每個詞最多的可能的標記個數(shù)，兩步模型最多可能的參數(shù)個數(shù)約為：Nw×VT，三步模型最多可能的參數(shù)個數(shù)為：Nw×NT×NT。事實上對上述兩個模型來說，對于94類的概念標注，即使是一個很小的三、四萬詞的詞典，語料不充分的情況就已經(jīng)十分嚴重，大量的（詞匯、標記)對，(標記、標記、標記）對根本沒有機會在一個只有十幾萬詞的訓練語料中出現(xiàn)。盡管引入的小概率估計方法可以使情況有所改善，但并不能從根本上解決問題，模型中大量未經(jīng)訓練的參數(shù)將導致模型的不穩(wěn)定并直接影響標注效果，因而其實際效果并不一定總比兩步模型要好。

責任編輯：admin

[上一頁][1] [2] 【歡迎大家踴躍評論】

上一篇：使用Python進行文本分類
下一篇：中文姓名的自動辨識

《譯聚網(wǎng)》倡導尊重與保護知識產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

自然語言歧義的消除

相關(guān)機器翻譯技術(shù)文章

免費在線翻譯

翻譯機

外語書籍

行業(yè)文章

人工翻譯