發(fā)布時(shí)間: 2017-03-28 12:06:48 作者:etogether.net 來(lái)源: 本站原創(chuàng) 瀏覽次數(shù):
取消收藏
收藏
詞義消歧(WSD)通過(guò)給定的上下文來(lái)確定單詞的正確意義。這是許多自然語(yǔ)言處理(NLP)任務(wù)中的重要中間步驟,特別對(duì)于信息提取,機(jī)器翻譯等領(lǐng)域。一種用于消除給定句子使用的詞語(yǔ)歧義的方法,其中該詞被分類為不同的WordNet詞匯類別。其是通過(guò)使用超過(guò)6000萬(wàn)字的巨大語(yǔ)料庫(kù)來(lái)產(chǎn)生的概率模型,假設(shè)每個(gè)語(yǔ)句都有一個(gè)意義的概念。這是一種基于知識(shí)的方法。該論文展示了詞匯界使用WordNet的一種新方法,這是現(xiàn)有的解決WSD問(wèn)題的知識(shí)庫(kù)。
“這項(xiàng)工作恢復(fù)了以前提出的方法,并將其應(yīng)用于今天大規(guī)模網(wǎng)絡(luò)生成的數(shù)據(jù)。它提供了新的見(jiàn)解,并開(kāi)啟了許多新的可能性,對(duì)于當(dāng)前的數(shù)據(jù)爆發(fā)具有可處理性。這項(xiàng)工作回顧了以知識(shí)為基礎(chǔ)的方法,過(guò)去由于知識(shí)獲取瓶頸而被暫停了。”仿射研究助理Samhith. K說(shuō)到。
“這個(gè)項(xiàng)目表明數(shù)據(jù)可以在解決人工智能問(wèn)題上產(chǎn)生的問(wèn)題。IIT Bhubaneswar 電氣科學(xué)學(xué)院 Arun Tilak.S說(shuō)。該方法根據(jù)給定的句子將一個(gè)單詞分類為45個(gè)WordNet詞匯類別之一。這是基于圍繞目標(biāo)詞來(lái)完成的。字典中的每個(gè)單詞都附有與每個(gè)類別對(duì)應(yīng)的權(quán)重。可以通過(guò)使用自我訓(xùn)練模型的反饋機(jī)制來(lái)改進(jìn)模型。
將來(lái),新開(kāi)發(fā)的“密集字詞表示”(Dense Word Representation)模型可用于開(kāi)發(fā)基于神經(jīng)網(wǎng)絡(luò)的分類器,用于將該詞分類為許多WordNet類別中的一個(gè),以句子的密集表示為輸入。
Affine和IIT- Bhubaneswar自2015年10月起在開(kāi)展合作,以促進(jìn)學(xué)術(shù)和研究的互動(dòng),以促進(jìn)和開(kāi)發(fā)數(shù)據(jù)科學(xué),分析和大數(shù)據(jù)領(lǐng)域的新突破性技術(shù)。
"Don't Let Ambiguity Cost You" - Word Sense Disambiguation Using WordNet Lexical Categories
Word Sense Disambiguation (WSD) is the task of identifying the correct sense of a word in the given context. It is an important intermediate step in many Natural Language Processing (NLP) tasks especially in Information Extraction, Machine Translation and many others. A methodology for disambiguating words given a sentence usage is proposed where the word is classified into one of the different WordNet Lexical Categories. A probabilistic model was generated by using huge corpus of more than 60 million words, assuming the concept of one sense per discourse. This is a knowledge based method. The paper shows the lexical community a fresh way to use WordNet- the pre-existing knowledge base for solving WSD problems.
原文:http://www.prweb.com/releases/2017/03/prweb14178308.htm