1. Introduction

把模型用在資源有限的環境下,擁有比較少量的參數,但是與原模型有差不多的效能

Untitled

五個 network compression 技術(軟體導向):

  1. Network Pruning
  2. Knowledge Distillation
  3. Parameter Quantization
  4. Architecture Design
  5. Dynamic Computation

五種技術的前四種不互斥,可以同時使用

2. Network Pruning

network 中有許多參數,有可能有些參數沒有用處,只是佔空間、浪費運算資源而已,而 network pruning 就是把 network 中沒有用的參數找出來刪除掉

Untitled

  1. 訓練一個大的模型
  2. 評估 weight 或 neuron 的重要性
  3. 移除不重要的 weightneuron(此時模型性能可能下降)
  4. 微調模型
  5. 重複步驟 2. 至 4.