1. How to attack?

要把 network 用在真正應用上光是正確率高是不夠的,還需要能夠**應付來自人類的惡意,在有人試圖想要欺騙它的情況下,也得到高的正確率。**e.g. 垃圾郵件分類

Untitled

一張照片可以被看作是一個非常長的向量,在每一個維度都加入一個小小的雜訊,通常都小到肉眼看不出來,attacked image 丟到 network 裡面,輸出不可以是貓,要變成其他的東西

1.1 Non-targeted & Targeted

Untitled

Untitled

此外,期望加入雜訊後的圖片 $x$ 要與原始圖片 $x^0$ 越接近越好,所以會加入 $d(x^0,x)≤\epsilon$ 的限制,讓兩張圖片的差距小於等於人類感知的極限

如何計算 $d(x^0,x)≤\epsilon$

  1. L2-norm
  2. L-infinity

選擇哪一種計算方式要根據 domain knowledge

1.2 白箱攻擊 & 黑箱攻擊

1.2.1 白箱攻擊