把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

會(huì)員中心 |  會(huì)員注冊(cè)  |  兼職信息發(fā)布    瀏覽手機(jī)版!    超值滿減    人工翻譯    英語(yǔ)IT服務(wù) 貧困兒童資助 | 留言板 | 設(shè)為首頁(yè) | 加入收藏  繁體中文
當(dāng)前位置:首頁(yè) > 機(jī)翻技術(shù) > 機(jī)器翻譯 > 正文

信息抽取的方式

發(fā)布時(shí)間: 2022-08-16 09:23:02   作者:etogether.net   來(lái)源: 網(wǎng)絡(luò)   瀏覽次數(shù):


許多系統(tǒng)的全部或大部分層次都是基于有限自動(dòng)機(jī)來(lái)設(shè)計(jì)的,盡管在實(shí)踐中因?yàn)閱蝹€(gè)自動(dòng)機(jī)通過(guò)特征記錄得以加強(qiáng)(例如在FASTUS系統(tǒng)中),或因?yàn)樽詣?dòng)機(jī)只是作為完整剖析器的一個(gè)預(yù)處理階段,例如(Gaizauskas et al.,1995;Weischedel,1995),或因?yàn)樽詣?dòng)機(jī)與其他組件通過(guò)決策樹(shù)相結(jié)合(Fisher et al.,1995),所以從技術(shù)上看大多數(shù)完整的系統(tǒng)并不是有限狀態(tài)的。


圖1.png


圖1 FASTUS(Hobbs et al.,1997)信息抽取引擎對(duì)例句生成的模板



圖2.png


圖2 FASTUS(Hobbs et al..1997)中的處理層次。每個(gè)層面抽取一種特定的信息,并將這類信息傳送給較高的層次



下面讓我們跟隨文獻(xiàn)Hobbs et al.(1997)和Appelt et al.(1995)來(lái)概略了解一下FASTUS系統(tǒng)每個(gè)層次的具體實(shí)現(xiàn)。在詞例還原以后,第二階段識(shí)別像set up和joint venture這樣的多詞單元和Bridgestone Sports Co.這樣的名稱。名稱識(shí)別器是一個(gè)轉(zhuǎn)錄機(jī),該轉(zhuǎn)錄機(jī)由大規(guī)模的特定映射集組成,以便于處理地名、人名、組織名、公司名、聯(lián)盟名和演出團(tuán)體名等名稱。下面給出的是為獲取像San Francisco Symphony Orchestra和Canadian Opera Company 這樣的演出組織名稱而設(shè)計(jì)的典型規(guī)則。雖然這些規(guī)則是由上下文無(wú)關(guān)語(yǔ)法寫(xiě)成的,因?yàn)椴淮嬖谶f歸,所以這些規(guī)則可以自動(dòng)編譯為有限狀態(tài)轉(zhuǎn)錄機(jī):


Performer-Org → (pre-location) Performer-Noun+ Perf-Org-Suffix

pre-location → locname I nationality

locname →  city I region

Perf-Org-Suffix → orchestra, company

Performer-Noun → symphony, opera

nationality → Canadian, American, Mexican

city → San Francisco, London


在第二階段也可以將forty two這樣的序列轉(zhuǎn)錄為正確的數(shù)值。

FASTUS系統(tǒng)的第三個(gè)階段利用有限狀態(tài)規(guī)則生成了一系列基本短語(yǔ),比如名詞詞組、動(dòng)詞詞組等。圖3給出了FASTUS的基本名詞短語(yǔ)識(shí)別器的輸出結(jié)果。注意,其中使用了一些特定領(lǐng)域的基本名詞短語(yǔ),比如Company和Location。


圖3.png


圖3 利用Appelt and Israle(1997)中描述的有限狀態(tài)規(guī)則,F(xiàn)ASTUS的基本短語(yǔ)識(shí)別器在第二階段所獲得的輸出結(jié)果



如何將這些基本短語(yǔ)組合成復(fù)雜的名詞詞組和動(dòng)詞詞組?這是在FASTUS的第四個(gè)階段,通過(guò)處理下面的連詞和數(shù)量短語(yǔ):


20,000 iron and "metal wood" clubs a month, 


以及介詞短語(yǔ):


production of 20,000 iron and "metal wood" clubs a month,


而實(shí)現(xiàn)的。第四個(gè)階段的輸出是一個(gè)復(fù)雜的名詞詞組和動(dòng)詞詞組的列表。在第五個(gè)階段,我們利用這個(gè)列表,忽略所有沒(méi)能形成復(fù)雜詞組的文本,識(shí)別復(fù)雜詞組中的實(shí)體和事件,并將這些識(shí)別出的客體插入正確的模板。實(shí)體和事件的識(shí)別是通過(guò)手工編寫(xiě)的有限狀態(tài)自動(dòng)機(jī)實(shí)現(xiàn)的,這些自動(dòng)機(jī)的轉(zhuǎn)移基于特定的復(fù)雜短語(yǔ)類型,而這些復(fù)雜短語(yǔ)類型是通過(guò)特定的中心詞或特定特征,比如company,currency或date來(lái)標(biāo)注的。


例如,上面給出的新聞中的第一個(gè)句子通過(guò)下面的兩個(gè)正則表達(dá)式來(lái)生成語(yǔ)義模式(其中,NG表示Noun-Group,VG表示Verb-Group):


● NG (Company/ies) VG(Set-up) NG(Joint-Venture) with NG(Company/ies)

● VG (Produce) NG(Product)


對(duì)于第二個(gè)句子,除了生成上述的第二個(gè)模式以外,還生成了下面的兩個(gè)模式:


● NG (Company) VG-Passive (Capitalized) at NG(Currency)

● NG (Company ) VG (Start) NG(Activity) in/on NG(Date)


圖4中給出的是這兩個(gè)句子的處理結(jié)果:5個(gè)初步的模板的集合。然后這5個(gè)模板必須合并成圖15.7所示的單一層次結(jié)構(gòu)。合并算法決定是否兩個(gè)行為(activity)或關(guān)系(relationship)的結(jié)構(gòu)一致到足以認(rèn)定它們所描述的是同一事件,如果是同一事件,就并合它們。因?yàn)楹喜⑺惴ū仨毷紫葘?shí)現(xiàn)指代消解(確定什么情況下兩個(gè)描述所指的是相同的事件)。


圖4.png


圖4 FASTUS系統(tǒng)的第五階段產(chǎn)生的5個(gè)局部的模板。這些模板將通過(guò)第六階段的合并算法生成圖1所示的最后的模板



責(zé)任編輯:admin


微信公眾號(hào)

[上一頁(yè)][1] [2] 【歡迎大家踴躍評(píng)論】
  • 上一篇:WORDNET:詞匯關(guān)系信息庫(kù)
  • 下一篇:魯棒的語(yǔ)義語(yǔ)法


  • 《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題,煩請(qǐng)30天內(nèi)提供版權(quán)疑問(wèn)、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net,我們將及時(shí)溝通與處理。


我來(lái)說(shuō)兩句
評(píng)論列表
已有 0 條評(píng)論(查看更多評(píng)論)