- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
(4)由較窄的領(lǐng)域到很寬的領(lǐng)域:以往的系統(tǒng)往往只能針對(duì)某一較窄的領(lǐng)域,例如只適合分析去飯店的場(chǎng)景對(duì)話等。而現(xiàn)在的系統(tǒng)則可適用于很寬的領(lǐng)域,甚至是與領(lǐng)域無關(guān)的,即系統(tǒng)工作時(shí)并不需要用到與特定領(lǐng)域有關(guān)的領(lǐng)域知識(shí)。
(5)由學(xué)院式評(píng)價(jià)到性能評(píng)價(jià):對(duì)系統(tǒng)的評(píng)價(jià)不再是只用少量幾個(gè)人為設(shè)計(jì)的典型例子,而是根據(jù)系統(tǒng)的應(yīng)用要求,用真實(shí)文本進(jìn)行較大規(guī)模的、客觀的、定量的評(píng)價(jià)。不僅要注意系統(tǒng)的質(zhì)量,同時(shí)也要注意系統(tǒng)的處理速度。
(6)由“故事”到新聞報(bào)道:這是針對(duì)自然語言處理研究的歷史的。歷史上曾有許多工作討論如何深入理解短故事(包括故事中出現(xiàn)的人物,他們的意圖等)?,F(xiàn)在的系統(tǒng)則要求能分析新聞報(bào)道中的多種短消息和長(zhǎng)故事。
(7)由原始文章到“排版過的”文章:以前的系統(tǒng)處理的文本一般是“純”文本,不包含任何“排版”信息,而現(xiàn)在由于要求處理真實(shí)文本,而且許多這類文本都是經(jīng)由字處理系統(tǒng)或排版系統(tǒng)處理過的,因而含有相應(yīng)的排版信息,就自然提出了這種要求。
同時(shí),由于強(qiáng)調(diào)了“大規(guī)?!保瑥?qiáng)調(diào)了“真實(shí)文本”,下面兩方面的基礎(chǔ)性工作也得到了重視和加強(qiáng)。
(1)大規(guī)模真實(shí)語料庫的研制。大規(guī)模的經(jīng)過不同深度加工的真實(shí)文本的語料庫,是研究自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ)。沒有它們,統(tǒng)計(jì)方法只能是無源之水。
(2)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對(duì)自然語言處理的重要性是很明顯的。這一點(diǎn)在介紹歧義性的過程中就可以看得很清楚了。
責(zé)任編輯:admin