- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
詞匯關(guān)系在語(yǔ)言學(xué)、心理語(yǔ)言學(xué)和計(jì)算研究中的作用激發(fā)了許多針對(duì)這種關(guān)系建立大型電子信息庫(kù)的工作。通常,建立這類信息庫(kù)的工作都是按照下面兩種基本方法中的一種進(jìn)行的:或者從現(xiàn)有詞典或辭書(shū)中挖掘信息,或者東拼西湊地手工建立一個(gè)信息庫(kù)。盡管重用現(xiàn)有資源的方法具有明顯的優(yōu)勢(shì),最大規(guī)模和最廣泛使用的英語(yǔ)詞匯信息庫(kù)WordNet,卻是手工建成的(Fellbaum,1998)。
WordNet由3個(gè)獨(dú)立的信息庫(kù)組成:名詞庫(kù)、動(dòng)詞庫(kù)以及形容詞和副詞共同的庫(kù)。WordNet中不包括封閉詞類的詞匯項(xiàng)。每個(gè)庫(kù)都由一組對(duì)應(yīng)于惟一正字形的詞匯條目與每個(gè)字形相關(guān)的一組涵義構(gòu)成。圖1給出的是1.6版WordNet中的詞匯規(guī)模。這個(gè)信息庫(kù)可以通過(guò)瀏覽器(本地或Internet)直接登錄,也可以使用一組C庫(kù)函數(shù)通過(guò)程序的方式登錄。
圖1當(dāng)前WordNet 1.6版中詞匯的規(guī)模,依據(jù)的是4個(gè)信息庫(kù)中的惟一條目和總的涵義數(shù)
WordNet涵義條目的最完整形式由一組同義詞、一個(gè)詞典風(fēng)格的定義或注釋和一些用法示例組成。圖2中所示的是WordNet中名詞條目bass的簡(jiǎn)化版。從這個(gè)條目可以看出,WordNet的條目和詞位的概念有幾個(gè)重要的不同。首先,WordNet不包括發(fā)音信息,因此并不區(qū)分不同發(fā)音的詞位。例如,本條目的bass,bass和bass8都是魚(yú)的涵義,發(fā)音為[b ae s],而其他都是音樂(lè)的涵義,發(fā)音為[b ey s]。更概括地講,在WordNet中并不區(qū)分同形關(guān)系與多義關(guān)系。例如,就這個(gè)條目而言,bass1和bass2,bass1和bass4所具有的關(guān)系并沒(méi)有差別。這種保守的處理策略反映出,盡管我們對(duì)詞的那些截然不同的涵義具備相當(dāng)可靠的診斷,但是系統(tǒng)地組織這種多義涵義仍是一種不確定和
主觀的行為。正因?yàn)槿绱耍琖ordNet的開(kāi)發(fā)者選擇簡(jiǎn)單地列出這些不同的涵義,并不將它們清楚地組織成我們?cè)谠S多詞典中見(jiàn)過(guò)的那種層次結(jié)構(gòu)的方式。
圖2 WordNet 1.6中名詞條目bass的部分內(nèi)容
圖3給出了整個(gè)動(dòng)詞庫(kù)中的大致涵義分布。WordNet中的所有動(dòng)詞根據(jù)所具有的涵義數(shù)目被分級(jí)。從圖3可以看出,該分布是極端不對(duì)稱的,少數(shù)條目具有大量的涵義,而大多數(shù)條目只具有單個(gè)涵義。當(dāng)處理詞典時(shí)普遍存在這種分布,稱為Zipf分布(Zipf,1949)。動(dòng)詞庫(kù)的多義程度大于名詞庫(kù)。這與英語(yǔ)中的動(dòng)詞數(shù)遠(yuǎn)少于名詞數(shù),但它們的意義卻更具有可塑性的事實(shí)是一致的。
圖3 WordNet中動(dòng)詞的涵義分布。y軸表示每個(gè)WordNet條目的涵義數(shù),x軸按動(dòng)詞的多義程度將它們分級(jí)。從圖中可以看出,少數(shù)動(dòng)詞條目具有很高的多義程度,而大多數(shù)條目只具有單個(gè)涵義