把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會員中心 |  會員注冊  |  兼職信息發(fā)布    瀏覽手機版!    超值滿減    人工翻譯    英語IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁 | 加入收藏  繁體中文
當前位置:首頁 > 機翻技術(shù) > 機器翻譯 > 正文

上下文有關(guān)的錯拼更正算法

發(fā)布時間: 2022-07-14 09:20:06   作者:etogether.net   來源: 網(wǎng)絡(luò)   瀏覽次數(shù):
摘要: 用符合英語構(gòu)詞法的有限狀態(tài)自動機來生成,如果不能生成就是錯拼單詞,如果符合正詞法規(guī)則的概率很低,就是錯拼單詞。



檢查拼寫錯誤的方法有不少,這些方法是:查找該單詞是否在詞典中存在,如果不存在就是錯拼單詞;用符合英語構(gòu)詞法的有限狀態(tài)自動機來生成,如果不能生成就是錯拼單詞;如果符合正詞法規(guī)則的概率很低,就是錯拼單詞。但是,這些方法對于檢查和更正真詞錯拼(real-word spelling error)或真詞錯誤更正(real-word error detection)都是不充分的。因為真詞錯拼之類的錯誤單詞都是在真實的英語單詞中實際存在的單詞。真詞錯拼的發(fā)生,是由于在排版印刷時出現(xiàn)錯誤操作(插入錯誤、脫落錯誤或換位錯誤),使得偶然排印出一個英語中存在的真詞(例

如,把there打成three),或者由于寫作的人用同音詞或準同音詞來錯誤地進行替換(例如,用dessert 來替換desert,用piece來替換peace)。對于這種類型錯誤的更正稱為上下文有關(guān)的錯拼更正(context-sensitive spelling error correction )。


這種類型的錯誤的重要性如何呢?Peterson(1986)根據(jù)對于單個排版印刷錯誤(插入、脫落、替代、換位)的初步分析,估計由于這些排版印刷錯誤而產(chǎn)生的英語真詞量(對于一個相當大的350000個單詞的詞表)大約為15%。Kukich(1992)根據(jù)對于語料庫的實驗研究,總結(jié)出不同的分析結(jié)果,認為英語真詞錯誤的比例在25%~40%。圖1是Kukich(1992)給出的一些例子。他把這種錯誤分為局部性錯誤(local error)和全局性錯誤(global error)兩種。局部性錯誤是根據(jù)直接圍繞該詞的上下文就可以檢查出的錯誤,全局性錯誤是需要根據(jù)更廣泛的上下文才能檢查出的錯誤。


1.png


圖1 Kukich(1992)發(fā)現(xiàn)的一些真詞拼寫錯誤,分為局部性錯誤和全局性錯誤兩種


上下文有關(guān)的拼寫錯誤檢查的方法之一是基于N元語法的方法。


用于拼寫檢查與更正的基于單詞的N元語法方法是Mays et al.(1991)提出的。這種方法的基本思想是,對于句子中的每個單詞生成它的一切可能的錯誤拼寫,或者只包括排版印刷錯誤而造成的錯誤拼寫(字母的插入、刪除或替換),或者也包括同音詞造成的錯誤拼寫(可能包括正確拼寫),然后選出使該句子具有最高先驗概率的拼寫。這就是說,給定一個句子W={W1,W2,…,Wk…,Wn},其中Wk的不同拼寫是Wk',Wk”,等等。在這些可能的拼寫中,我們使用N元語法計算P(W),從中選擇最大的P(W)。也可以使用基于詞類的N元語法來代替基于單詞的N元語法,發(fā)現(xiàn)不可靠的詞類組合,但這種方法可能不如發(fā)現(xiàn)不可靠的單詞組合的效果好。


上下文有關(guān)的錯拼更正還有其他的統(tǒng)計方法,有些方法是專為更正而提出的,有些方法則是針對更為一般的詞匯歧義消解而提出的(例如,詞義的歧義消解或重音復(fù)原)。除了我們剛才描寫的三元語法方法之外,還包括貝葉斯分類法,或者貝葉斯分類與三元語法相結(jié)合的方法(Gale et al.,1993;Golding,1997;Golding and Schabes,1996)、判定表方法(Yarowsky,1994)、基于轉(zhuǎn)換的學(xué)習(xí)方法(Mangu and Brill,1997)、潛在語義分析法(Jones and Martin,1997)、篩選法[Winnow](Golding andRose,1999)。把這些方法進行對比,Golding and Roth(1999)發(fā)現(xiàn),篩選算法效果最好??偟膩碚f,這些算法在很多方面是相似的,它們的根據(jù)都是單詞和詞類的N元語法這樣的特征,Roth(1998,1999)指出,其中很多算法使用一族線性預(yù)測算子來進行預(yù)測,稱為線性統(tǒng)計詢問(Linear Statistical Queries,簡稱LSQ)假設(shè)。



責任編輯:admin



微信公眾號

我來說兩句
評論列表
已有 0 條評論(查看更多評論)