- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
大約90年代開始,自然語言處理領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個明顯的特征是:
(1)對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實用價值。
(2)對系統(tǒng)的輸出,鑒于真實地理解自然語言是十分困難的,對系統(tǒng)并不要求能對自然語言文本進行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進行自動地提取索引詞,過濾,檢索,自動提取重要信息,進行自動摘要等等。
而更進一步將上述特征,細化成如下幾種特征:
(1)由句子到文章:以往的自然語言處理系統(tǒng)多數(shù)都是只用細心選擇過的少量例句來進行實驗,而現(xiàn)在要處理數(shù)以百萬計的真實的文本(即報紙等多種出版物上直接收錄的文本)。這種處理深度雖然不夠,但針對特定的任務還是有實用價值的。
(2)由完全的語法分析到部分語法分析:由于真實文本的復雜性(其中甚至有不合語法的句子),對所有句子都要求完全的語法分析幾乎是不可能的。同時,由于具體文章數(shù)量極大,還有處理速度方面的要求,因此,目前的多數(shù)系統(tǒng)往往不要求進行完全的分析,而只進行必要的部分分析。
(3)由語言學到統(tǒng)計學:從方法上說,以往的系統(tǒng)主要依賴語言學的理論和方法,而新研制的系統(tǒng)同時還依賴于對大量文本的統(tǒng)計性質(zhì)分析。統(tǒng)計學的方法在新研制的系統(tǒng)中起了很大作用。