1. Basic Idea

1.1 基本認識

self-supervised learning 是利用不需要標註資料的任務來訓練模型，如填空題、預測下一個 token，又稱為 pre-train

Untitled

auto-encoder 可以看作是 self-supervised learning 的一種的方法

encoder 讀進一張高維圖片，把這張圖片變成一個低維（bottleneck）向量（稱 embedding、representation 或 code）作為 decoder 的輸入。架構類似 CNN
decoder 輸入向量，產生一張圖片。架構類似 GAN 的 generator

Untitled

訓練的目標希望 encoder 的輸入跟 decoder 的輸出越接近越好（reconstruction**）** 與 **Cycle GAN** 做的事情其實一模一樣

動機：

降維（dimension reduction），圖片可以看作是一個很長的向量，但這個向量太長不好處理，所以丟給 encoder 來壓縮輸出一個較短的向量。學習更多：PCA、t-SNE

就算有一個高維度的向量圖片，但可能他的變化有限，所以只需很少的維度就能夠表示高維圖片的各種變化情況

Untitled

如上圖，$3\times3$ 的矩陣應當有 $2^9$ 種變化情況，但可能只有 2 種情況會出現，因此可以只用 2 維的向量進行表示。encoder 就能夠實現這種轉換，把複雜的訊息用簡單的方法表示，實現 dimension reduction

De-noising auto-encoder 是將圖片送入 encoder 之前加一些雜訊，要 decoder 把向量還原成加入雜訊前的結果

Untitled