1. Introduction
把模型用在資源有限的環境下,擁有比較少量的參數,但是與原模型有差不多的效能
五個 network compression 技術(軟體導向):
- Network Pruning
- Knowledge Distillation
- Parameter Quantization
- Architecture Design
- Dynamic Computation
五種技術的前四種不互斥,可以同時使用
2. Network Pruning
network 中有許多參數,有可能有些參數沒有用處,只是佔空間、浪費運算資源而已,而 network pruning 就是把 network 中沒有用的參數找出來刪除掉
- 訓練一個大的模型
- 評估 weight 或 neuron 的重要性
- weight 的重要性
- 參數加上絕對值得大小
- 套用 LLL 的思想,計算 $b_i$
- neuron 的重要性
- 移除不重要的 weight 或 neuron(此時模型性能可能下降)
- 微調模型
- 重複步驟 2. 至 4.