立足點:Network 的架構設計的思想

1. Image Classification

1.1 基本步驟

  1. 把所有圖片都先 rescale 成大小一樣
  2. 把每一個類別表示成一個 one-hot vector(dimension 的長度決定模型可以辨識出多少不同種類的東西)
  3. 將圖片輸入到模型中

1.2 將圖片輸入到模型中

直覺思路會直接展平,但會導致參數量過大

Untitled

如果輸入的向量長度是 100 × 100 × 3,有 1000 個 neuron,那第一層的 weight 就有 1000 × 100 × 100 × 3,也就是 3×10 的 7 次方,是非常巨大的數目

雖然隨著參數的增加,可以增加模型的彈性,可以增加它的能力,但是也增加了 overfitting 的風險

思考:

考慮到影像辨識問題本身的特性,其實並不一定需要 fully connected,不需要每一個 neuron 與 input 的每一個 dimension 都有一個 weight

2. 神經元角度介紹 CNN

觀察 ①

模型通過識別一些特定 patterns 來識別物體,而非整張圖

Untitled

neuron 也許根本不需要把整張圖片當作輸入,只需把圖片的一小部分當作輸入,就足以偵測某些特別關鍵的 pattern 有沒有出現