self-supervised learning 屬於 unsupervised learning 的一種,其資料本身沒有標籤,但是訓練過程中實際上有模型自己生成的標籤
把訓練資料分為兩部分,一部分為輸入資料、另一部分為標註資料
BERT 是一個 transformer 的 encoder。BERT 可以輸入一排向量,然後輸出另一排向量,輸出的長度與輸入的長度相同。BERT 一般用於自然語言處理,它的輸入是一串文本,也可以輸入語音、圖像等向量序列
訓練 BERT 有兩個任務,分別是 Masking Input 及 Next Sentence Prediction
mask 的方法:
兩種方法都可以使用,使用哪種方法也是隨機決定的
訓練方法:
本質上就是在解決一個分類問題,BERT 要做的是預測什麼字被蓋住