- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語(yǔ) |
- 德語(yǔ)
任何時(shí)候,一旦發(fā)現(xiàn)模型和測(cè)量值之間存在差異,就說(shuō)出現(xiàn)了誤差。當(dāng)考慮模型中的“噪聲”或者說(shuō)誤差時(shí),必須考慮其來(lái)源。你可能會(huì)對(duì)復(fù)雜的過(guò)程進(jìn)行簡(jiǎn)化,這將導(dǎo)致在模型和測(cè)量值之間出現(xiàn)“噪聲”或誤差,若無(wú)法理解數(shù)據(jù)的真實(shí)生成過(guò)程,也會(huì)導(dǎo)致差異的發(fā)生。另外,測(cè)量過(guò)程本身也可能產(chǎn)生“噪聲”或者問(wèn)題。下面舉一個(gè)例子,一個(gè)從文件導(dǎo)入的二維數(shù)據(jù)。實(shí)話來(lái)講,這個(gè)數(shù)據(jù)是我自己造出來(lái)的,其具體的生成公式如下:
Y = 3.0 + 1.7x + 0.1sin(30x)+0.06N(0,1),
其中N(0,1)是一個(gè)均值為0、方差為1的正態(tài)分布。我們可以嘗試用一條直線來(lái)擬合上述數(shù)據(jù)。不難想到,直線所能得到的最佳擬合應(yīng)該是3.0+1.7x這一部分。這樣的話,誤差部分就是0.1sin(30x)+0.06N(0,1)。我們使用局部加權(quán)線性回歸來(lái)試圖捕捉數(shù)據(jù)背后的結(jié)構(gòu)。該結(jié)構(gòu)擬合起來(lái)有一定的難度,因此我們測(cè)試了多組不同的局部權(quán)重來(lái)找到具有最小測(cè)試誤差的解。
圖1給出了訓(xùn)練誤差和測(cè)試誤差的曲線圖,上面的曲線就是測(cè)試誤差,下面的曲線是訓(xùn)練誤差。如果降低核的大小,那么訓(xùn)練誤差將變小。從圖1來(lái)看,從左到右就表示了核逐漸減小的過(guò)程。
圖1 偏差方差折中與測(cè)試誤差及訓(xùn)練誤差的關(guān)系。上面的曲線就是測(cè)試誤差,在中間部分最低。為了做出最好的預(yù)測(cè),我們應(yīng)該調(diào)整模型復(fù)雜度來(lái)達(dá)到測(cè)試誤差的最小值
一般認(rèn)為,上述兩種誤差由三個(gè)部分組成:偏差、測(cè)量誤差和隨機(jī)噪聲。我們可通過(guò)引入三個(gè)越來(lái)越小的核來(lái)不斷增大模型的方差。
可以將一些系數(shù)縮減成很小的值或直接縮減為0,這是一個(gè)增大模型偏差的例子。通過(guò)把一些特征的回歸系數(shù)縮減到0,同時(shí)也就減少了模型的復(fù)雜度。例子中有8個(gè)特征,消除其中兩個(gè)后不僅使模型更易理解,同時(shí)還降低了預(yù)測(cè)誤差。圖1 的左側(cè)是參數(shù)縮減過(guò)于嚴(yán)厲的結(jié)果,而右側(cè)是無(wú)縮減的效果。
方差是可以度量的。如果從鮑魚數(shù)據(jù)中取一個(gè)隨機(jī)樣本集(例如取其中100個(gè)數(shù)據(jù))并用線性模型擬合,將會(huì)得到一組回歸系數(shù)。同理,再取出另一組隨機(jī)樣本集并擬合,將會(huì)得到另一組回歸系數(shù)。這些系數(shù)間的差異大小也就是模型方差大小的反映。上述偏差與方差折中的概念在機(jī)器學(xué)習(xí)十分流行并且反復(fù)出現(xiàn)。
責(zé)任編輯:admin