메타 러닝에서 파라미터 개수를 얼마나 늘릴 수 있을까?
Paper: https://openreview.net/pdf?id=-KU_e4Biu0
최근 딥러닝 연구들은 overparameterization이 전통적인 single-task 환경에서 일반화 능력을 높혀준다고 주장함.
즉, 모델의 capacity가 높아짐에 따라 test loss가 증가하는 과적합이 일어나는 것처럼 보이지만, 파라미터를 더더욱 늘릴 경우 다시 test loss가 감소한다는 Double Descent에 관한 얘기.
이게 메타러닝에서도 유사하게 작동하며, 특히나 Linear Regression과 같은 간단한 task에서도 유사한 현상을 관찰할 수 있었음.
즉, 메타러닝에서의 overparameterization에 관한 현상들은 어느 정도 linear model로 간소화해 바라볼 수 있다는 것(대표화).
이제 우리는 메타러닝 대신 linear model을 디테일하게 분석하고, 이를 전반적인 메타러닝 환경에 적용할 수 있게됨(일반화).
사실 이는 완전히 새로운 관찰은 아니며, 최근 연구들은 딥러닝 모델이 (비선형임에도 불구하고) kernel regression같은 선형 문제들이 (overparameteried)(비선형) 딥러닝 모델들의 이론적인 이해를 돕는 데 좋은 근사를 제공해준다고 주장해왔음.
메타러닝에서도 데이터를 낮은 차원에 사영시키는 Subspace-based 메타러닝 기법들이 널리 쓰여왔지만, Double Descent 현상은 차라리 overparameterized interpolator가 PCA 기반 모델들보다 훨씬 더 좋을 것을 암시함.
Contribution