當(dāng)前位置：首頁(yè) > 機(jī)翻技術(shù) > 機(jī)器翻譯 > 正文

信息抽取的方式

發(fā)布時(shí)間： 2022-08-16 09:23:02 作者：etogether.net 來(lái)源：網(wǎng)絡(luò) 瀏覽次數(shù)：

摘要: 典型的信息抽取系統(tǒng)與信息檢索系統(tǒng)有許多共同點(diǎn)，因此根據(jù)信息檢索改編了幾個(gè)標(biāo)準(zhǔn)評(píng)價(jià)矩陣，包括精度(precision),召回率(reca...

在自然語(yǔ)言處理的應(yīng)用，比如問(wèn)答系統(tǒng)中，對(duì)每個(gè)輸入句子給出一個(gè)合理理解是非常重要的，因?yàn)樘峁┙o用戶的錯(cuò)誤回答可能導(dǎo)致嚴(yán)重的后果。對(duì)于這類應(yīng)用，面向語(yǔ)義的規(guī)則對(duì)規(guī)則（rule-to-rule）方法是建立對(duì)輸入句子的徹底理解的一個(gè)很好的方法。

然而，其他的應(yīng)用，比如從商業(yè)新聞中抽取合資企業(yè)的信息，理解天氣預(yù)報(bào)，或從收音機(jī)報(bào)道的今天的股票行情中進(jìn)行簡(jiǎn)單信息的摘要，都不是特別需要這種細(xì)致的理解。這種信息抽取（information extraction）的應(yīng)用具有兩個(gè)特點(diǎn)：一方面想獲取的知識(shí)可以通過(guò)相對(duì)簡(jiǎn)單和固定的模板，或帶有槽的框架（這些槽需要由文本中的素材來(lái)填充）來(lái)進(jìn)行描述；另一方面文本中只有一小部分信息需要填入模板或框架，其他的都可以被忽略。

方法論探討：信息抽取系統(tǒng)的評(píng)測(cè)

典型的信息抽取系統(tǒng)與信息檢索系統(tǒng)有許多共同點(diǎn)，因此根據(jù)信息檢索改編了幾個(gè)標(biāo)準(zhǔn)評(píng)價(jià)矩陣，包括精度(precision),召回率(recall）,誤識(shí)率（fallout）以及結(jié)合矩陣F系數(shù)（F-measure)。召回率是對(duì)系統(tǒng)從文本中抽取了多少相關(guān)信息進(jìn)行度量的系數(shù)。因此，它是對(duì)系統(tǒng)的覆蓋面（coverage）的度量。召回率由下面的公式定義：

系統(tǒng)所給出的正確的答案數(shù)

召回率= ------------------------------

文中可能正確的答案的總數(shù)

精度是對(duì)系統(tǒng)返回的信息中有多少是真正正確的進(jìn)行度量的系數(shù)，又稱為正確度（accuracy）。精度由下面的公式定義：

系統(tǒng)所給出的正確的答案數(shù)

精度= ------------------------------

系統(tǒng)給出的答案數(shù)

誤識(shí)率是對(duì)系統(tǒng)忽略文中錯(cuò)誤信息的能力進(jìn)行度量的系數(shù)，它的定義如下：

系統(tǒng)所給出的不正確答案數(shù)

誤識(shí)率= ------------------------------

文中不正確的答案數(shù)

注意精度和召回率是相反的，對(duì)于保持不變的系統(tǒng)，如果追求高精度，就必然帶來(lái)召回率的降低。類似地，追求系統(tǒng)的高覆蓋率，就將帶來(lái)更多的錯(cuò)誤，造成精度的降低。這導(dǎo)致人們使用精度和召回率相結(jié)合的度量系數(shù)，即F系數(shù)。在F系數(shù)中，利用參數(shù)β來(lái)平衡精度和召回率。F系數(shù)由下面的公式定義：

(β2+1) PR

F= ------------------

β2P+R

當(dāng)β等于1時(shí)，表示給精度和召回率相同的權(quán)重。當(dāng)β大于1時(shí)，表示偏愛(ài)精度而當(dāng)β小于1時(shí)，表示偏愛(ài)召回率。

例如，第五屆信息理解會(huì)議（Message Understanding Conference,簡(jiǎn)稱MUC-5(Sundheim,1993），是由美國(guó)政府組織的信息抽取會(huì)議）中的一項(xiàng)任務(wù)就是從商業(yè)新聞中抽取國(guó)際合資企業(yè)的信息。下面是取自文獻(xiàn)Grishman and Sundheim(1995)的樣例中的兩個(gè)句子：

bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.

The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and "metal wood" clubs a month.

信息抽取系統(tǒng)的輸出可以是帶有幾個(gè)填充槽的單一模板，也可以是較復(fù)雜的分層次關(guān)聯(lián)起來(lái)的客體。MUC-5的任務(wù)指定后者，即較復(fù)雜的輸出，要求系統(tǒng)能夠生成分層次關(guān)聯(lián)的描述合資企業(yè)合伙人、合資公司以及相關(guān)的行為、所有權(quán)和資金的模板。在圖1中給出了FASTUS（Hobbs et al.，1997）系統(tǒng)生成的模板結(jié)構(gòu)。

許多信息抽取系統(tǒng)是根據(jù)層疊式有限狀態(tài)機(jī)設(shè)計(jì)的。例如，F(xiàn)ASTUS系統(tǒng)所生成的上述模板就是基于層疊的方式的，語(yǔ)言處理的每個(gè)層面抽取文本中的一些信息，并將這些信息傳送給較高層次的語(yǔ)言處理，如圖2所示。

[1] [2] [下一頁(yè)] 【歡迎大家踴躍評(píng)論】

上一篇：WORDNET：詞匯關(guān)系信息庫(kù)
下一篇：魯棒的語(yǔ)義語(yǔ)法

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題，煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至18964029557@163.com，我們將及時(shí)溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

信息抽取的方式

相關(guān)機(jī)器翻譯技術(shù)文章

免費(fèi)在線翻譯

翻譯機(jī)

外語(yǔ)書(shū)籍

行業(yè)文章

人工翻譯