- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
大約90年代開(kāi)始,自然語(yǔ)言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個(gè)明顯的特征是:
(1)對(duì)系統(tǒng)輸入,要求研制的自然語(yǔ)言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值。
(2)對(duì)系統(tǒng)的輸出,鑒于真實(shí)地理解自然語(yǔ)言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語(yǔ)言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。例如,對(duì)自然語(yǔ)言文本進(jìn)行自動(dòng)地提取索引詞,過(guò)濾,檢索,自動(dòng)提取重要信息,進(jìn)行自動(dòng)摘要等等。
而更進(jìn)一步將上述特征,細(xì)化成如下幾種特征:
(1)由句子到文章:以往的自然語(yǔ)言處理系統(tǒng)多數(shù)都是只用細(xì)心選擇過(guò)的少量例句來(lái)進(jìn)行實(shí)驗(yàn),而現(xiàn)在要處理數(shù)以百萬(wàn)計(jì)的真實(shí)的文本(即報(bào)紙等多種出版物上直接收錄的文本)。這種處理深度雖然不夠,但針對(duì)特定的任務(wù)還是有實(shí)用價(jià)值的。
(2)由完全的語(yǔ)法分析到部分語(yǔ)法分析:由于真實(shí)文本的復(fù)雜性(其中甚至有不合語(yǔ)法的句子),對(duì)所有句子都要求完全的語(yǔ)法分析幾乎是不可能的。同時(shí),由于具體文章數(shù)量極大,還有處理速度方面的要求,因此,目前的多數(shù)系統(tǒng)往往不要求進(jìn)行完全的分析,而只進(jìn)行必要的部分分析。
(3)由語(yǔ)言學(xué)到統(tǒng)計(jì)學(xué):從方法上說(shuō),以往的系統(tǒng)主要依賴(lài)語(yǔ)言學(xué)的理論和方法,而新研制的系統(tǒng)同時(shí)還依賴(lài)于對(duì)大量文本的統(tǒng)計(jì)性質(zhì)分析。統(tǒng)計(jì)學(xué)的方法在新研制的系統(tǒng)中起了很大作用。