한국어로 경사하강법. gradient descent를 처음 들었을 때 딱 이런 느낌이었다. 어딘가에서 조금씩 내려간다고.
생물이 가진 뉴런은 인공신경망보다 훨씬 복잡하게 작동한다. 그 중 '활성화'에 대한 이야기를 하려고 한다.
인공신경망 학습기법에 관한 연구가 활발해지면서 학습속도를 개선하고 100개 넘는 레이어를 쌓는 일도 쉽게 할 수 있게 되었다. 가중치를 어떻게 초기화하냐에 따라 gradient vanishing/exploding을 막으면서 학습을 진행할 수 있다.
Gradient descent가 발전해온 방향은 크게 두 가지가 있다. 첫 번째는 물리법칙을 따르는 방법, 두 번째는 학습을 거듭할수록 일정비율로 학습률을 줄여서 global minima를 지나가지 않게 하는 방법이 그것이다.
Gradient descent가 발전해온 방향은 크게 두 가지가 있다. 첫 번째는 물리법칙을 따르는 방법 두 번째는 학습을 거듭할수록 일정비율로 학습률을 줄여서 global minima를 지나가지 않게 하는 방법이 그것이다.
Gradient descent가 발전해온 방향은 크게 두 가지가 있다. 첫 번째는 물리법칙을 따르는 방법. 두 번째는 학습을 거듭할수록 일정비율로 학습률을 줄여서 global minima를 지나가지 않게 하는 방법이다.
기본 중에 기본. 모델학습을 처음 시도할 때 'tiny dataset으로 해보는 거고 사용자가 적절히 정해주는 건데 내가 적절히 해주면 얘도 눈치껏 알아먹겠지' 이런 식으로 접근했던 게 일주일치 고생으로 돌아왔다 하하하. 역시 기본기가 탄탄해야 한다.
많은 교재와 강의에서 back prop을 정리할 때 node차원에서만 바라보는 게 아쉬웠다. 그러면 scratch로 신경망을 구현할 때 back prop에서 막히고 만다. 나는 동적인 신경망을 만들고 싶었다. 그래서 조금은 더 깊게 파봤다.
Back propagation에서 구현한 신경망으로 MNIST를 분류해보자.
어떤 연구에서는 Swish, 또 다른 연구에서는 SiLU로 불린다. activation function 연구는 활발하게 이루어지지만 어떤 과제에서 잘 되는 함수가 다른 과제에서는 잘 안 되는 게 많아서 자주 쓰이는 건 한정적이다.
MLP에서 backward pass를 리뷰한 것을 활용해서 conv lyaer가 내부적으로는 어떻게 돌아가는지 알아보면 좋을 것 같다는 생각에서 시작했다. 레쓰고.
지난주 즈음부터 나에게 주어진 업무. "TensorRT가 뭔지, native model, cuda engine model을 각각 돌려보고, cuda engine으로 변환이 안 되는 레이어는 어떻게 하는지 알아보고 발표하세요"