詞義消歧(WSD)通過給定的上下文來確定單詞的正確意義。這是許多自然語言處理(NLP)任務(wù)中的重要中間步驟,特別對于信息提取,機(jī)器翻譯等領(lǐng)域。一種用于消除給定句子使用的詞語歧義的方法,其中該詞被分類為不同的WordNet詞匯類別。其是通過使用超過6000萬字的巨大語料庫來產(chǎn)生的概率模型,假設(shè)每個語句都有一個意義的概念。這是一種基于知識的方法。該論文展示了詞匯界使用WordNet的一種新方法,這是現(xiàn)有的解決WSD問題的知識庫。
“這項工作恢復(fù)了以前提出的方法,并將其應(yīng)用于今天大規(guī)模網(wǎng)絡(luò)生成的數(shù)據(jù)。它提供了新的見解,并開啟了許多新的可能性,對于當(dāng)前的數(shù)據(jù)爆發(fā)具有可處理性。這項工作回顧了以知識為基礎(chǔ)的方法,過去由于知識獲取瓶頸而被暫停了?!狈律溲芯恐鞸amhith. K說到。
“這個項目表明數(shù)據(jù)可以在解決人工智能問題上產(chǎn)生的問題。IIT Bhubaneswar 電氣科學(xué)學(xué)院 Arun Tilak.S說。該方法根據(jù)給定的句子將一個單詞分類為45個WordNet詞匯類別之一。這是基于圍繞目標(biāo)詞來完成的。字典中的每個單詞都附有與每個類別對應(yīng)的權(quán)重??梢酝ㄟ^使用自我訓(xùn)練模型的反饋機(jī)制來改進(jìn)模型。
將來,新開發(fā)的“密集字詞表示”(Dense Word Representation)模型可用于開發(fā)基于神經(jīng)網(wǎng)絡(luò)的分類器,用于將該詞分類為許多WordNet類別中的一個,以句子的密集表示為輸入。
Affine和IIT- Bhubaneswar自2015年10月起在開展合作,以促進(jìn)學(xué)術(shù)和研究的互動,以促進(jìn)和開發(fā)數(shù)據(jù)科學(xué),分析和大數(shù)據(jù)領(lǐng)域的新突破性技術(shù)。
"Don't Let Ambiguity Cost You" - Word Sense Disambiguation Using WordNet Lexical Categories
Word Sense Disambiguation (WSD) is the task of identifying the correct sense of a word in the given context. It is an important intermediate step in many Natural Language Processing (NLP) tasks especially in Information Extraction, Machine Translation and many others. A methodology for disambiguating words given a sentence usage is proposed where the word is classified into one of the different WordNet Lexical Categories. A probabilistic model was generated by using huge corpus of more than 60 million words, assuming the concept of one sense per discourse. This is a knowledge based method. The paper shows the lexical community a fresh way to use WordNet- the pre-existing knowledge base for solving WSD problems.
原文:http://www.prweb.com/releases/2017/03/prweb14178308.htm