- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
在自然語言處理的應用,比如問答系統(tǒng)中,對每個輸入句子給出一個合理理解是非常重要的,因為提供給用戶的錯誤回答可能導致嚴重的后果。對于這類應用,面向語義的規(guī)則對規(guī)則(rule-to-rule)方法是建立對輸入句子的徹底理解的一個很好的方法。
然而,其他的應用,比如從商業(yè)新聞中抽取合資企業(yè)的信息,理解天氣預報,或從收音機報道的今天的股票行情中進行簡單信息的摘要,都不是特別需要這種細致的理解。這種信息抽?。╥nformation extraction)的應用具有兩個特點:一方面想獲取的知識可以通過相對簡單和固定的模板,或帶有槽的框架(這些槽需要由文本中的素材來填充)來進行描述;另一方面文本中只有一小部分信息需要填入模板或框架,其他的都可以被忽略。
方法論探討:信息抽取系統(tǒng)的評測
典型的信息抽取系統(tǒng)與信息檢索系統(tǒng)有許多共同點,因此根據(jù)信息檢索改編了幾個標準評價矩陣,包括精度(precision),召回率(recall),誤識率(fallout)以及結合矩陣F系數(shù)(F-measure)。召回率是對系統(tǒng)從文本中抽取了多少相關信息進行度量的系數(shù)。因此,它是對系統(tǒng)的覆蓋面(coverage)的度量。召回率由下面的公式定義:
系統(tǒng)所給出的正確的答案數(shù)
召回率= ------------------------------
文中可能正確的答案的總數(shù)
精度是對系統(tǒng)返回的信息中有多少是真正正確的進行度量的系數(shù),又稱為正確度(accuracy)。精度由下面的公式定義:
系統(tǒng)所給出的正確的答案數(shù)
精度= ------------------------------
系統(tǒng)給出的答案數(shù)
誤識率是對系統(tǒng)忽略文中錯誤信息的能力進行度量的系數(shù),它的定義如下:
系統(tǒng)所給出的不正確答案數(shù)
誤識率= ------------------------------
文中不正確的答案數(shù)
注意精度和召回率是相反的,對于保持不變的系統(tǒng),如果追求高精度,就必然帶來召回率的降低。類似地,追求系統(tǒng)的高覆蓋率,就將帶來更多的錯誤,造成精度的降低。這導致人們使用精度和召回率相結合的度量系數(shù),即F系數(shù)。在F系數(shù)中,利用參數(shù)β來平衡精度和召回率。F系數(shù)由下面的公式定義:
(β2+1) PR
F= ------------------
β2P+R
當β等于1時,表示給精度和召回率相同的權重。當β大于1時,表示偏愛精度而當β小于1時,表示偏愛召回率。
例如,第五屆信息理解會議(Message Understanding Conference,簡稱MUC-5(Sundheim,1993),是由美國政府組織的信息抽取會議)中的一項任務就是從商業(yè)新聞中抽取國際合資企業(yè)的信息。下面是取自文獻Grishman and Sundheim(1995)的樣例中的兩個句子:
bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.
The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and "metal wood" clubs a month.
信息抽取系統(tǒng)的輸出可以是帶有幾個填充槽的單一模板,也可以是較復雜的分層次關聯(lián)起來的客體。MUC-5的任務指定后者,即較復雜的輸出,要求系統(tǒng)能夠生成分層次關聯(lián)的描述合資企業(yè)合伙人、合資公司以及相關的行為、所有權和資金的模板。在圖1中給出了FASTUS(Hobbs et al.,1997)系統(tǒng)生成的模板結構。
許多信息抽取系統(tǒng)是根據(jù)層疊式有限狀態(tài)機設計的。例如,F(xiàn)ASTUS系統(tǒng)所生成的上述模板就是基于層疊的方式的,語言處理的每個層面抽取文本中的一些信息,并將這些信息傳送給較高層次的語言處理,如圖2所示。