CNN 기반의 딥러닝 모델들이 많은 Vision Task들에 대해 준수한 성능을 보여주고 있다.
하지만 이들은 매우 큰 Computational Cost를 요구한다.
이러한 문제를 해결하기 위한 기법인 Model Compression이 활발히 연구되었다.
Model Compression은 크게 4가지 방법론으로 구별된다.
본 글에서는 Pruning에 대한 개요 및 Pruning 연구들의 계보를 살펴본다.
우선 Pruning, 말 그래도 가지치기를 하려면, 어떤 가중치가 중요한지 알아야 한다.
즉 가중치의 중요도 평가 Metric이 Pruning 방법론의 Novelty가 되는 경우가 많다.
Metric 대상의 범주에 따라 크게 2가지 종류로 나눌 수 있다.
(그림 출처)
1. Unstructured Pruning
- 신경망의 특정 구조나 패턴을 따로 구별하지 않고 가중치들의 Metric을 계산함.
2. Structured Pruning
- 신경망의 특정 구조나 패턴을 고려하여 가중치들의 Metric을 계산함.
얼핏 보면 structure든 unstructure든 무슨 상관인가라는 생각을 할 수 있다.
그러나 일반적인 HW들을 생각해보자.
하지만 Unstructured Pruning을 생각해보자.
하지만 유념하자. 좋은 Metric만 설정했다면 Unstructured Pruning은 모델에 최소침습만 하여 성능 저하를 매우 크게 줄일 수 있다.
A. Gholami, S. Kim, Z. Dong, Z. Yao, M. W. Mahoney, and
K. Keutzer, “A survey of quantization methods for efficient
neural network inference,” arXiv preprint arXiv:2103.13630, 2021.
J. Gou, B. Yu, S. J. Maybank, and D. Tao, “Knowledge distillation:
A survey,” Int. J. Comput. Vis., vol. 129, no. 6, pp. 1789–1819, 2021.
T. Elsken, J. H. Metzen, and F. Hutter, “Neural architecture search: A survey,” J. Mach. Learn. Res., vol. 20, no. 1, pp. 1997–2017, 2019.
A. Tang, P. Quan, L. Niu, and Y. Shi, “A survey for sparse regularization based compression methods,” Ann. Data Sci., vol. 9,
no. 4, pp. 695–722, 2022.
G. Menghani, “Efficient deep learning: A survey on making deep
learning models smaller, faster, and better,” ACM Comput. Surv., 2021.