ML_2021_2-6 類神經網路訓練不起來怎麼辦(五)

發表於 2022-07-07 更新於 2022-08-08

upload successful

Feature Normalization

因為深度學習有多個層，雖然在一開始我們把x做了標準化，但是在經過一層layer計算以後，數值又失去了標準化，故我們需要進行多次的標準化
標準化要放在激發函數前後的影響並不大
以上圖為例，我們需要對z再度進行標準化，公式如下(feature=3的case)

則可以得到
$$\tilde{z}^i = \frac{z^i-\mu}{\sigma}$$
後續層也依此類推
這個feature標準化的過程使得所有feature之間有了關聯性 -> 這是一個network

這樣的標準化流程會跟著batch(一組batch內部做標準化)跑，不是所有feature納進來標準化
這樣的作法稱作batch normalization
- 問題來了，我們會需要足夠大的batch size才能做一個好的標準化(誤差會比較小)
$\beta、\gamma$是模型的另外兩個參數，透過學習得到
為啥需要這兩個參數?
- 因為標準化會保證$\tilde{z}$之平均值 = 0，這樣的結果有可能會對模型產生一些負面影響，所以我們需要$\beta、\gamma$兩個參數來讓數值變成比較貼合模型需求
- 問題：這樣不就又破壞掉標準化平衡了嗎?
  - 我們初始設定$\gamma = 1 , \beta = 0$，讓他們初始為真的標準化
  - 讓模型來決定值該怎麼分步

在實際test時，就代入
$$\tilde{z} = \frac{z-\bar{u}}{\bar{\sigma}}
$$

下面這篇論文的作者發明這個詞”Internal covariate shift”
根據這篇論文所認為有以下可能
我們做參數update，將A變成A’，B變成B’，但是B的變動是根據之前算出來的a作為input，當整體更新了以後，B’要面對的input卻不再是a，而是經過A’算出來的a’，故導致仍舊失準
- 而Batch normalization的作法，是讓a跟a’有相似的分布(similar statistics)，故誤差會比較接近
但是Experimental result並不支持這個緣故(打臉)
- 打臉者認為實驗下來，a跟a’的分布都差不多，而且不管分布是不是差很多，影響都不大，於是這個假說是錯的(不是batch normalization的關鍵)
- 不過實驗跟理論依然證明，Batch normalization依然會改變error surface的地貌
- 此人認為batch normalization的發現可能是偶然(意料之外)的，但無論如何這是有用的方法
  - normalization有一堆方法，參考如下