- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
(4)由較窄的領域到很寬的領域:以往的系統(tǒng)往往只能針對某一較窄的領域,例如只適合分析去飯店的場景對話等。而現在的系統(tǒng)則可適用于很寬的領域,甚至是與領域無關的,即系統(tǒng)工作時并不需要用到與特定領域有關的領域知識。
(5)由學院式評價到性能評價:對系統(tǒng)的評價不再是只用少量幾個人為設計的典型例子,而是根據系統(tǒng)的應用要求,用真實文本進行較大規(guī)模的、客觀的、定量的評價。不僅要注意系統(tǒng)的質量,同時也要注意系統(tǒng)的處理速度。
(6)由“故事”到新聞報道:這是針對自然語言處理研究的歷史的。歷史上曾有許多工作討論如何深入理解短故事(包括故事中出現的人物,他們的意圖等)?,F在的系統(tǒng)則要求能分析新聞報道中的多種短消息和長故事。
(7)由原始文章到“排版過的”文章:以前的系統(tǒng)處理的文本一般是“純”文本,不包含任何“排版”信息,而現在由于要求處理真實文本,而且許多這類文本都是經由字處理系統(tǒng)或排版系統(tǒng)處理過的,因而含有相應的排版信息,就自然提出了這種要求。
同時,由于強調了“大規(guī)?!?,強調了“真實文本”,下面兩方面的基礎性工作也得到了重視和加強。
(1)大規(guī)模真實語料庫的研制。大規(guī)模的經過不同深度加工的真實文本的語料庫,是研究自然語言統(tǒng)計性質的基礎。沒有它們,統(tǒng)計方法只能是無源之水。
(2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計算機可用詞典對自然語言處理的重要性是很明顯的。這一點在介紹歧義性的過程中就可以看得很清楚了。
責任編輯:admin