우리는 제약된 자원(e.g., FLOPs, latency, memory footprint, model size) 하에서 더 나은 정확도를 달성하기 위해 neural network의 channel 수를 설정하는 방법을 연구했다.
이를 위해 simple and one-shot approach인 AutoSlim을 제안한다.
여러 network sample을 training하고 reinforcement learning으로 검색하는 대신, 하나의 slimmable network를 train하여 다양한 channel configurations에 따른 network accuracy를 근사하도록 한다.
그런 다음, trained된 slimmable model을 반복적으로 평가하고, minimal accuracy drop을 보이는 layer를 greedily slim화했다.
이 single pass에 의해, 우리는 optimized channel configurations을 얻을 수 있었다.
이 연구에서 우리는 constrained resources 내에서 better accuracy를 달성하기 위해 channel numbers in a neural network를 설정하는 방법을 연구한다.
처음 떠오르는 the most brute-force approach는 exhaustive search : 모든 가능한 channel configurations을 전부 훈련해보는 방법이다.
그러나 이 approach는 cost가 너무 높아 실용적이지 않다.
(예를 들어, 8개의 layer를 가진 CNN에서 각 layer의 channel 수 후보를 10개로 제한했을 때, 총 개의 candidate network archietectures가 생성된다)
이 문제를 해결하기 위해, 우리는 AutoSlim이라는 간단하고 one-shot solution을 제안한다.
우리의 주요 아이디어는 slimmable network를 훈련하여 다양한 channel configurations에 따른 network accuracy를 근사하는 것이다.
Yu et al.(Yu et al., 2018; Yu & Huang, 2019)은 동일한 architecture를 개별적으로 training하는 것보다 뛰어난 성능을 보이며 임의의 width에서 실행할 수 있는 slimmable networks를 소개했다.
원래의 목적은 adaptive accuracy-efficiency trade-offs를 제공하는 것이지만, slimmable network는 여러 이유로 benchmark 성능 평가에 특히 적합하다는 것을 발견했다.
AutoSlim에서는 먼저 몇 epoch 동안(e.g., 10% or 20% of full training epochs) slimmable model을 훈련하여 빠르게 benchmark performance estimator를 얻는다.
그런 다음 trained slimmable model을 반복적으로 평가하고, validation set에서 accuracy drop이 최소화되는 layer를 greedily slim화한다.
이러한 최적화된 architecture를 개별적으로 또는 a single slimmable network로서 전체 epoch 동안 train한다.
최근 neural network design을 자동화하려는 관심이 높아지고 있다.
이러한 자동화된 serached architectures들은 여러 vision and language task에서 성능을 크게 향상시켰다.
그러나 대부분의 neural architecture search 방법들은 channel configuration을 search space에 포함하지 않고, 대신 human-designed heuristics을 적용했다.
최근에는 RL 기반 search algorithm이 channel pruning이나 filter 수 검색에 직접 적용되기도 했다.
He et al.은 model compression을 위한 AutoML을 제안하며, RL을 활용하여 model compression policy를 제공했다.
MNasNet은 mobile device에 적합한 network architecture를 filter 크기까지 포함하여 직접 검색하는 방식을 제안했다.
이 검색 과정에서 각 sampling된 model은 aggressive learning rate를 사용해 5 epoch 동안 훈련되며, 50k개의 validation set으로 평가된다.
Tan et al.은 architecture 검색 동안 약 8,000개의 model을 sampling했다.
...
두 가지 주요 step
으로 이루어진다.이 논문은 slimmable network 연구이기도 하지만, 최적의 width configurations을 검색하는 방법을 제시하기 때문에 중점은 NAS인듯(Network Architecture Search)