the value of α
가 operation의 예측력으로 쓰이는 상황에 대한 논의는 매우 조금밖에 이루어지지 않았다.α
와 높은 validation accuracy는 별 관계가 없었다. α
를 통한 모델 선택 이후에는 오히려 문제가 된다는 점 continuous relaxed network
= supernet
α
에 기반하여 operation이 큰 역할을 보이지 않으면 초반에 prune하는 방식이다.α
크기는 별 도움 안 됨을 이 장에서 보임α
MAY NOT REPRESENT THE OPERATION STRENGTHα
maginutde(skip connect, sep conv 3x3)
α
maginutde 기준으로 선택하면 Figure2 (a) 에서처럼 거의 모든 operaion이 skip connect가 되어 버린다.S2 = (skip connect, sep conv 3x3)
에서 특정 cell에서의 결과 값을 위와 같이 표현 가능
이때 cell이 계산해야할 최적의 값을 m*라고 하자
위식의 추정값은 m*와 같을 수록 좋으므로 아래 식을 최소화 하는 α
를 구하면 된다
위식을 최소화 하는 α
는 아래와 같은 특성을 가진다
생각해보면 학습이 잘 될 수록 모든 이전 layer가 학습이 잘 되었다면, 는 m*와 같은 값을 것이다.
α는
variance식에 따라 계속 작아진다.따라서 학습이 진행될 수록skip connection의 크기가 계속 증가될 수 밖에 없다.
잘생각해보면 x_e는 학습이 진행될 수록 m*와 값이 같아질 것이기 때문에 모델은 이를 활용하기 위해 skip의 α
를 계속 키울 것이다.
α
가 모델을 선택하게 하는 대신에 operation의 strength를 측정하여 모델 선택을 함