ML_2021_3-1 卷積神經網路

發表於 2022-07-09 更新於 2022-08-08

Image classification - Version 1

如果我們依然使用fully connected network來訓練，又假設neuron取1000個，則一個100x100的圖片輸入，會產生$1001003(彩色)1000 = 310^7$個weight，是一個巨大的數字，大幅增加了overfitting的風險 (彈性過大)
不採用全連接層，以下透過一些觀察來嘗試簡化這個網路

根據上述的觀察，我們成功讓CNN network針對相片輸入的訓練更加簡化
Convolutional layer的model bias會比較大，但CNN是專門為影像設計的network
PS. 這邊為何CNN bias會比較大，以及為何這樣不好，可以再google一下

所謂Convolutional Layer，裡面有很多的Filter，裡面都有一個3x3xchannel維的tensor
每一個filter都是要抓取某個pattern
以下假設是channel = 1(黑白照片)
我們把各個rf跟filter做內積，得出各值
接下來把所有pattern對各filter一樣的計算
這內積出來的一群數字稱為『Feature map』，再這個例子中，我們有64個filter，則我們的feature map會有64組(channels)數字，每組有4x4個數字
接下來進到第二層的convolution，我們的filter必須變成3x3x64，因為上一層輸出了64個channel，相對於第一層只有一個channel，第二層會出現64個channel

隨著捲積層的深入，我們觀察的圖片pattern會越來越大
繼續上面的例子，如果我們的filter之rf一樣是看3x3大小的話，因為我們的feature map中的3x3大小實際上是對應到圖片裡面的5x5大小(跟stride有關)，所以其實層數越高，我們一次考慮的範圍會越大！

第一個版本的共用參數，就是第二版本的filter(本slide忽略bias)
把一個filter掃過一張圖片，稱作『convolves over』
- 例句(?)： each filter convolves over the input image

我們用一個19x19的向量來描述一個棋盤，把它扔進network以後輸出next move應該在的位置
下圍棋可以是一個類別分類問題
這個問題也可以用fully-connected network解決
但用CNN效果更好-> 棋盤可以看做一個19x19來描述
每個棋盤格的channel有48個(這格可能被叫吃等等)
這意味著圍棋與影像有許多相似特性
- 可以只看小區塊(alpha go: 5x5)
  - Same pattern appear in different regions (雙叫吃等等)
棋盤可否用pooling ? 因為每格都很重要(精細度高) -> Alpha Go有沒有用呢?
李宏毅教你畫重點XD：學著幫論文畫重點，抓critical terms
alpha go 正文沒有提到神經網路結構，這是在附件找到的
1. 視為19x19x48的image
2. zero pads(padding補0至23x23)
3. 有k個filter(競賽用的go，filter = 192)
4. filter的kernel size = 5x5
5. stride = 1
6. 用到rectifier nonlinearity(ReLU)
7. 2~12層都有做zero padding至21x21，filter數同，kernel size = 3x3，stride = 1
8. 最後apply softmax function
alpha go 沒有用pooling!!