- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
任何時候,一旦發(fā)現(xiàn)模型和測量值之間存在差異,就說出現(xiàn)了誤差。當考慮模型中的“噪聲”或者說誤差時,必須考慮其來源。你可能會對復雜的過程進行簡化,這將導致在模型和測量值之間出現(xiàn)“噪聲”或誤差,若無法理解數(shù)據(jù)的真實生成過程,也會導致差異的發(fā)生。另外,測量過程本身也可能產(chǎn)生“噪聲”或者問題。下面舉一個例子,一個從文件導入的二維數(shù)據(jù)。實話來講,這個數(shù)據(jù)是我自己造出來的,其具體的生成公式如下:
Y = 3.0 + 1.7x + 0.1sin(30x)+0.06N(0,1),
其中N(0,1)是一個均值為0、方差為1的正態(tài)分布。我們可以嘗試用一條直線來擬合上述數(shù)據(jù)。不難想到,直線所能得到的最佳擬合應該是3.0+1.7x這一部分。這樣的話,誤差部分就是0.1sin(30x)+0.06N(0,1)。我們使用局部加權線性回歸來試圖捕捉數(shù)據(jù)背后的結構。該結構擬合起來有一定的難度,因此我們測試了多組不同的局部權重來找到具有最小測試誤差的解。
圖1給出了訓練誤差和測試誤差的曲線圖,上面的曲線就是測試誤差,下面的曲線是訓練誤差。如果降低核的大小,那么訓練誤差將變小。從圖1來看,從左到右就表示了核逐漸減小的過程。
圖1 偏差方差折中與測試誤差及訓練誤差的關系。上面的曲線就是測試誤差,在中間部分最低。為了做出最好的預測,我們應該調整模型復雜度來達到測試誤差的最小值
一般認為,上述兩種誤差由三個部分組成:偏差、測量誤差和隨機噪聲。我們可通過引入三個越來越小的核來不斷增大模型的方差。
可以將一些系數(shù)縮減成很小的值或直接縮減為0,這是一個增大模型偏差的例子。通過把一些特征的回歸系數(shù)縮減到0,同時也就減少了模型的復雜度。例子中有8個特征,消除其中兩個后不僅使模型更易理解,同時還降低了預測誤差。圖1 的左側是參數(shù)縮減過于嚴厲的結果,而右側是無縮減的效果。
方差是可以度量的。如果從鮑魚數(shù)據(jù)中取一個隨機樣本集(例如取其中100個數(shù)據(jù))并用線性模型擬合,將會得到一組回歸系數(shù)。同理,再取出另一組隨機樣本集并擬合,將會得到另一組回歸系數(shù)。這些系數(shù)間的差異大小也就是模型方差大小的反映。上述偏差與方差折中的概念在機器學習十分流行并且反復出現(xiàn)。
責任編輯:admin