當(dāng)前位置：首頁 > 機(jī)翻技術(shù) > 識(shí)別技術(shù) > 正文

基于數(shù)據(jù)集多重抽樣的分類器

發(fā)布時(shí)間： 2023-03-11 09:57:42 作者：etogether.net 來源：網(wǎng)絡(luò) 瀏覽次數(shù)：

摘要: 我們將介紹基于同一種分類器多個(gè)不同實(shí)例的兩種計(jì)算方法，在這些方法當(dāng)中，數(shù)據(jù)集也會(huì)不斷變化，而后應(yīng)用于不同的實(shí)例分類器上。

我們自然可以將不同的分類器組合起來，而這種組合結(jié)果則被稱為集成方法(ensemble method)或者元算法(meta-algorithm)。使用集成方法時(shí)會(huì)有多種形式：可以是不同算法的集成，也可以是同一算法在不同設(shè)置下的集成，還可以是數(shù)據(jù)集不同部分分配給不同分類器之后的集成。接下來，我們將介紹基于同一種分類器多個(gè)不同實(shí)例的兩種計(jì)算方法。在這些方法當(dāng)中，數(shù)據(jù)集也會(huì)不斷變化，而后應(yīng)用于不同的實(shí)例分類器上。最后，我們會(huì)討論如何利用機(jī)器學(xué)習(xí)問題的通用框架來應(yīng)用AdaBoost算法。

AdaBoost

優(yōu)點(diǎn)：泛化錯(cuò)誤率低，易編碼，可以應(yīng)用在大部分分類器上，無參數(shù)調(diào)整。

缺點(diǎn)：對(duì)離群點(diǎn)敏感。

適用數(shù)據(jù)類型：數(shù)值型和標(biāo)稱型數(shù)據(jù)。

1. bagging：基于數(shù)據(jù)隨機(jī)重抽樣的分類器構(gòu)建方法

自舉匯聚法(bootstrap aggregating)，也稱為bagging方法，是在從原始數(shù)據(jù)集選擇S次后得到S個(gè)新數(shù)據(jù)集的一種技術(shù)。新數(shù)據(jù)集和原數(shù)據(jù)集的大小相等。每個(gè)數(shù)據(jù)集都是通過在原始數(shù)據(jù)集中隨機(jī)選擇一個(gè)樣本來進(jìn)行替換而得到的。這里的替換就意味著可以多次地選擇同一樣本。這一性質(zhì)就允許新數(shù)據(jù)集中可以有重復(fù)的值，而原始數(shù)據(jù)集的某些值在新集合中則不再出現(xiàn)。

在S個(gè)數(shù)據(jù)集建好之后，將某個(gè)學(xué)習(xí)算法分別作用于每個(gè)數(shù)據(jù)集就得到了S個(gè)分類器。當(dāng)我們要對(duì)新數(shù)據(jù)進(jìn)行分類時(shí)，就可以應(yīng)用這S個(gè)分類器進(jìn)行分類。與此同時(shí)，選擇分類器投票結(jié)果中最多的類別作為最后的分類結(jié)果。

當(dāng)然，還有一些更先進(jìn)的bagging方法，比如隨機(jī)森林(random forest)。接下來我們將注意力轉(zhuǎn)向一個(gè)與bagging類似的集成分類器方法boosting。

1.2 boosting

boosting是一種與bagging很類似的技術(shù)。不論是在boosting還是bagging當(dāng)中，所使用的多個(gè)分類器的類型都是一致的。但是在前者當(dāng)中，不同的分類器是通過串行訓(xùn)練而獲得的，每個(gè)新分類器都根據(jù)已訓(xùn)練出的分類器的性能來進(jìn)行訓(xùn)練。boosting是通過集中關(guān)注被已有分類器錯(cuò)分的

那些數(shù)據(jù)來獲得新的分類器。

由于boosting分類的結(jié)果是基于所有分類器的加權(quán)求和結(jié)果的，因此boosting與bagging不太一樣。bagging中的分類器權(quán)重是相等的，而boosting中的分類器權(quán)重并不相等，每個(gè)權(quán)重代表的是其對(duì)應(yīng)分類器在上一輪迭代中的成功度。

boosting方法擁有多個(gè)版本，本章將只關(guān)注其中一個(gè)最流行的版本AdaBoost。

AdaBoost的一般流程

（1）收集數(shù)據(jù)：可以使用任意方法。

（2）準(zhǔn)備數(shù)據(jù)：依賴于所使用的弱分類器類型，本章使用的是單層決策樹，這種分類器可以處理任何數(shù)據(jù)類型。當(dāng)然也可以使用任意分類器作為弱分類器。作為弱分類器，簡單分類器的效果更好。

（3）分析數(shù)據(jù)：可以使用任意方法。

（4）訓(xùn)練算法：AdaBoost的大部分時(shí)間都用在訓(xùn)練上，分類器將多次在同一數(shù)據(jù)集上訓(xùn)練弱分類器。

（5）測試算法：計(jì)算分類的錯(cuò)誤率。

（6）使用算法：同SVM一樣，AdaBoost預(yù)測兩個(gè)類別中的一個(gè)。如果想把它應(yīng)用到多個(gè)類別的場合，那么就要像多類SVM中的做法一樣對(duì)AdaBoost進(jìn)行修改。

[1] [2] [下一頁] 【歡迎大家踴躍評(píng)論】

上一篇：示例：在一個(gè)難數(shù)據(jù)集上的AdaBoost應(yīng)用
下一篇：示例：基于SVM的數(shù)字識(shí)別

《譯聚網(wǎng)》倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請30天內(nèi)提供版權(quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至info@qiqee.net，我們將及時(shí)溝通與處理。

把腿张开老子臊烂你多p视频软件,free性国产高清videos,av在线亚洲男人的天堂,hdsexvideos中国少妇,俄罗斯真人性做爰

基于數(shù)據(jù)集多重抽樣的分類器

相關(guān)機(jī)器翻譯技術(shù)文章

免費(fèi)在線翻譯

翻譯機(jī)

外語書籍

行業(yè)文章

人工翻譯