- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
一個世紀(jì),伴隨著計算機(jī)科學(xué)的迅猛發(fā)展,促生了一系列計算機(jī)交叉學(xué)科。語料庫語言學(xué)也是那個時代的產(chǎn)物。年輕的語料庫語言學(xué)彰顯著它強大的生命力和競爭力,在短短的二十多年里,成為現(xiàn)代語言學(xué)研究的新寵。世界上的語料庫語言學(xué)研究發(fā)展很快,尤其是英語語料庫逐漸成熟。然而,俄語語料庫的研究沉寂滯后,關(guān)注點單一且缺乏成熟的理論和實踐經(jīng)驗。近年來,我國俄語界對語料庫的研究主要是:以俄羅斯的計算語言學(xué)傳統(tǒng)理論為依據(jù),在工程語言學(xué)和機(jī)器翻譯這些數(shù)理學(xué)科領(lǐng)域取得一些成果;另一方面是宏觀地討論俄羅斯的俄語語料庫建設(shè)情況和瞻望我國俄語語料庫未來的發(fā)展方向(許漢成2005)。這兩個方面的研究雖然都是俄語語料庫研討的范圍,但是卻不是建設(shè)語料庫和應(yīng)用語料庫的實際內(nèi)容,可公開使用的俄語語料庫的建設(shè)及基于俄語語料庫輔助教學(xué)和研究的應(yīng)用研究還在摸索中。
2.俄語語料庫發(fā)展
20世紀(jì)80年代,語料庫語言學(xué)的研究進(jìn)入發(fā)展期。世界范圍內(nèi)語料庫的建設(shè)和研究人員在最近幾年里呈現(xiàn)出迅猛的發(fā)展勢頭,在世界各地建立了一些大型采集各種語料、不同層次、包含多種標(biāo)注信息、以不同方式進(jìn)行標(biāo)注的語料庫。俄羅斯國內(nèi)自建的大型俄語單語語料庫——“二十世紀(jì)俄文報刊語料庫(комьютерный корпус текстов русских газет конца XX века,簡稱КГТ)”和規(guī)模最大的俄羅斯國家語料庫(НКРЯ)——也在近幾十年引起了俄羅斯國內(nèi)學(xué)界的重視,并逐漸成為俄羅斯計算語言學(xué)研究的新熱點。在我國,俄語語料庫的探討和研究起步較其他語種晚。筆者以“語料庫”和各個語種作關(guān)鍵詞在維普期刊資源網(wǎng)上分別進(jìn)行了檢索和統(tǒng)計,得到了下列數(shù)據(jù)(圖1)。從相關(guān)數(shù)據(jù)來看,相比英、漢、日語語料庫的建設(shè)工作,俄語語料庫研究建設(shè)空間大,同時難度也大。
俄羅斯國內(nèi)最早構(gòu)思建立俄語語料庫的學(xué)者是俄羅斯學(xué)者Л.Н.Засорина,她領(lǐng)導(dǎo)編制的規(guī)模為100萬詞的語料庫,包含了每篇為2000詞的文章,共500篇,涵蓋了4個不同的類型。其中大眾報刊類占24%、文藝小說類占25%、人文科學(xué)和科技類占24%、戲劇類為27%。根據(jù)這個語料庫,Засорина于1977年編撰了一部《俄語頻率詞典》。但這個語料庫結(jié)構(gòu)不合理、規(guī)模較小,且當(dāng)時俄語報刊較多涉及意識形態(tài)方面的信息,故據(jù)此語料庫統(tǒng)計的詞匯頻率可信度不高。之后建立的語料庫中,最早進(jìn)行標(biāo)注的俄語語料庫是1985年由В.М.Андрющенко和А.П.Ершов領(lǐng)導(dǎo)的全面啟動的俄語機(jī)器儲備庫(Машинный фонд русского языка),可惜最終沒能完全建成,只留下了各類文本達(dá)到5000萬詞的規(guī)模,具有一套粗放的標(biāo)注集,并采用通行的標(biāo)準(zhǔn)完成了部分語料的標(biāo)注。而世界范圍內(nèi)最早建立、影響最久的俄語語料庫是瑞典大學(xué)烏普薩拉斯托夫研究系在Lennart Lonngren教授領(lǐng)導(dǎo)下產(chǎn)生的烏普薩拉俄語語料庫。利用該語料庫的統(tǒng)計數(shù)據(jù),編撰了《現(xiàn)代俄語頻率詞典》。由于該語料庫未經(jīng)形態(tài)還原和詞法標(biāo)注,因此不利于直接進(jìn)行詞匯語法信息的檢索。但是該語料庫對文本來源與類型、標(biāo)題、段落、句子、專有詞、大小寫、數(shù)字、非俄語字符和標(biāo)點等等因素進(jìn)行了嚴(yán)格的區(qū)分標(biāo)注。在實用價值方面具有很高的意義。
這些俄語語料庫雖然服務(wù)于具體的語言學(xué)研究,但是在俄羅斯國家范圍內(nèi)一直沒有權(quán)威的經(jīng)過系統(tǒng)的語言學(xué)加工的俄語語料庫。直到本世紀(jì)初,俄羅斯國內(nèi)語言學(xué)家們普遍意識到了建設(shè)俄語語料庫的必要性和重要性,并迅速投入了各種語料庫的建設(shè)中,以便能盡快在俄語語料庫中搜尋實用的語料資源。并由此產(chǎn)生了不少收錄各種各樣語料、具有不同處理層次、包含各種標(biāo)注信息、以不同方式標(biāo)注的語料庫相繼出現(xiàn)了。如1所示,這些有代表性的語料庫進(jìn)入了俄語研究者的視野,并且這些語料庫都可以部分公開,供人們自由訪問,檢索。這些通過語言加工的現(xiàn)代大型語料庫能夠為語言研究者提供客觀翔實的語言證據(jù)。
這些語料庫給世界各國俄語研究工作者提供了無比豐富的語言資源。借助語料庫,人們可以通過檢索獲取科學(xué)的數(shù)據(jù),對許多幾乎成為定論的語言規(guī)律開展新的認(rèn)識和分析,從而產(chǎn)生許多新的語言學(xué)思想。語言本身是復(fù)雜的,觀察語言現(xiàn)象時不能輕率處之,借助語料庫可以幫助我們更客觀地,全面地,量化地分析語言,推動語言學(xué)的研究進(jìn)步。
3.語料庫應(yīng)用語言教學(xué)
語料庫應(yīng)用于外語教學(xué)是20世紀(jì)下半葉新興的外語教學(xué)理論,是集語料庫、外語教學(xué)法和計算機(jī)技術(shù)為一體的新型交叉學(xué)科。語料庫的發(fā)展對于語言教學(xué)產(chǎn)生了很大的影響。首先,根據(jù)不同類型的語料庫,教師選擇課程資料更加豐富。從高頻詞匯和實例的檢索,詞匯固定用法總結(jié),到口語、演說語料資源,寫作范例等的查找,都比過去容易。其次,語料庫本身可以作為語言教學(xué)的材料,語料庫成為語言教學(xué)大綱研制和語言教學(xué)方法論研究的基礎(chǔ)。