2021.09.01 공부
원문 : https://towardsdatascience.com/5-exciting-deep-learning-advancements-to-keep-your-eye-on-in-2021-6f6a9b6d2406
노션 : https://resilient-jackfruit-555.notion.site/5-Exciting-Deep-Learning-Advancements-in-2021-5b5f758ddc8d40ec84ec1a8a0f47a474
얕은 신경망에 gradient boosting을 적용한 것
분류, 회귀, 랭킹에서 굉장한 성과를 보여주고 있음.
Non-specialized or sequence data (ex. 이미지가 아닌) 데이터에서 이용됨
GN의 아이디어: weak learner를 앙상블하는 것, 각각의 weak learner들은 이전 weak learner의 실수를 바로잡아 준다. (얇은 레이어를 많이 깔면서 이전 레이어의 오차를 개선하는 방식으로 나아가는 듯?)
예시를 보면 모델1, 모델2, 모델3이 이전 모델의 잔차를 이용해서 학습하고, 이 각각의 모델은 심플하지만 전체를 앙상블하면 복잡하게 된다.
(그래서 열심히 자료를 찾았는데 없슴니다 ㅠ_ㅠ)
스터디에서 한번 다루었으니 패스
워낙 유명하니 패스
✔️ 이 많은 것들 사이에서 당첨복권(subnet)을 찾겠다!
Q. 그럼 왜 모델이 클수록 공부가 잘 될까? subnet을 찾기가 더 어려울텐데?!
A. 논문에서는 모델이 클수록 subnet을 찾기가 쉽다고 함. 사람들이 복권을 많이 살수록 복권 당첨되는 사람들이 많아지는 것처럼. 내가 복권을 많이 살 수록 당첨 확률도 높아질 것. 모델이 클수록 subnet을 찾을 수 있는 확률도 높아진다고 보면 될 것 같다.
Deep Double Descent
Bias-Variance Trade-Off
: 고전 ML의 통념인, 큰 모델(파라미터도 많고, 데이터도 많고, 에폭도 많은)은 Overfitting이 일어나기가 쉽다.를 설명하고자 가져온 그래프
Model-wise Double Descent
: Interpolation Threshold를 기점으로 왼쪽은 Bias-Variance Trade-Off를 따르고 있지만, 오른쪽은 파라미터 갯수가 커질수록 성능이 향상되는 모습을 보이고 있다.
Q. What is Interpolation Threshold?
A. The interpolation Threshold is the point at which there are the fewest reachable models with zero training error.
- 근사함수 임계값: 가장 정답에 근사한 함수의 최대값(한계값) : 쉽게 말해, 가장 잘 찾은 값, 가장 근사한 함수에 다가갈 수 있는 한계값
Q. 아니 그러면 그냥 파라미터 수가 많고 파라미터를 잘 설정했을 수도 있자나?!
A. Nope!
- Epoch-wise Double Descent
: Epoch이 많아져도 같은 모습을 보인다. Optional Early Stopping이 최저 Test Error에 도달했다가 다시 그보다 더 낮은 Test Error를 가지게 되는 모습을 볼 수 있다.
: 위 현상은 Optimizer나 LR Scheduler를 바꿔도 일어난다.
∴ 파라미터 외에도 다양한 아이들이 모델의 복잡도와 크기에 영향을 준다. 그리고 큰 모델이 무조건 안좋은 것은 아님! 왜? 모델이 클수록 subnetwork를 찾을 확률이 높아지니까!!