- 簽證留學(xué) |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
任何時候,一旦發(fā)現(xiàn)模型和測量值之間存在差異,就說出現(xiàn)了誤差。當(dāng)考慮模型中的“噪聲”或者說誤差時,必須考慮其來源。你可能會對復(fù)雜的過程進(jìn)行簡化,這將導(dǎo)致在模型和測量值之間出現(xiàn)“噪聲”或誤差,若無法理解數(shù)據(jù)的真實生成過程,也會導(dǎo)致差異的發(fā)生。另外,測量過程本身也可能產(chǎn)生“噪聲”或者問題。下面舉一個例子,一個從文件導(dǎo)入的二維數(shù)據(jù)。實話來講,這個數(shù)據(jù)是我自己造出來的,其具體的生成公式如下:
Y = 3.0 + 1.7x + 0.1sin(30x)+0.06N(0,1),
其中N(0,1)是一個均值為0、方差為1的正態(tài)分布。我們可以嘗試用一條直線來擬合上述數(shù)據(jù)。不難想到,直線所能得到的最佳擬合應(yīng)該是3.0+1.7x這一部分。這樣的話,誤差部分就是0.1sin(30x)+0.06N(0,1)。我們使用局部加權(quán)線性回歸來試圖捕捉數(shù)據(jù)背后的結(jié)構(gòu)。該結(jié)構(gòu)擬合起來有一定的難度,因此我們測試了多組不同的局部權(quán)重來找到具有最小測試誤差的解。
圖1給出了訓(xùn)練誤差和測試誤差的曲線圖,上面的曲線就是測試誤差,下面的曲線是訓(xùn)練誤差。如果降低核的大小,那么訓(xùn)練誤差將變小。從圖1來看,從左到右就表示了核逐漸減小的過程。
圖1 偏差方差折中與測試誤差及訓(xùn)練誤差的關(guān)系。上面的曲線就是測試誤差,在中間部分最低。為了做出最好的預(yù)測,我們應(yīng)該調(diào)整模型復(fù)雜度來達(dá)到測試誤差的最小值
一般認(rèn)為,上述兩種誤差由三個部分組成:偏差、測量誤差和隨機(jī)噪聲。我們可通過引入三個越來越小的核來不斷增大模型的方差。
可以將一些系數(shù)縮減成很小的值或直接縮減為0,這是一個增大模型偏差的例子。通過把一些特征的回歸系數(shù)縮減到0,同時也就減少了模型的復(fù)雜度。例子中有8個特征,消除其中兩個后不僅使模型更易理解,同時還降低了預(yù)測誤差。圖1 的左側(cè)是參數(shù)縮減過于嚴(yán)厲的結(jié)果,而右側(cè)是無縮減的效果。
方差是可以度量的。如果從鮑魚數(shù)據(jù)中取一個隨機(jī)樣本集(例如取其中100個數(shù)據(jù))并用線性模型擬合,將會得到一組回歸系數(shù)。同理,再取出另一組隨機(jī)樣本集并擬合,將會得到另一組回歸系數(shù)。這些系數(shù)間的差異大小也就是模型方差大小的反映。上述偏差與方差折中的概念在機(jī)器學(xué)習(xí)十分流行并且反復(fù)出現(xiàn)。
責(zé)任編輯:admin