[U] Week 1 - 딥러닝 학습방법

JaeJun Lee ·2022년 9월 22일

부스트캠프 AI Tech

목록 보기

4/30

분류와 같은 복잡한 문제를 해결할 때는 기본적으로 선형 모델이 아닌 비선형 모델이다.

소프트맥스(Softmax) 함수는 모델의 출력을 지수함수를 통해 확률로 해석할 수 있게 변환해주는 연산이다.

분류(Classification) 문제를 해결할 때 선형모델과 소프트맥스 함수를 결합하여 예측한다.
너무 큰 벡터가 입력으로 들어오게 되면 오버플로우가 발생할 수 있기 때문에 이를 방지하기 위해 np.max 함수를 사용한 최대값을 벡터에서 빼준 뒤 지수 함수를 취한다.
추론을 할 때는 원-핫(one-hot) 벡터로 최대값을 가진 주소만 1로 출력하는 연산을 사용해서 학습이 아닌 추론에서는 굳이 소프트맥스를 사용하진 않는다.

신경망은 선형모델과 활성함수(Activation function)을 합성한 함수이다.
선형모델로 나온 출력값에 소프트맥스를 취함으로써 분류 문제를 해결할 수 있다.

선형모델의 결과물을 원하고자 하는 의도로 바꿔서 해석할 수 있다.
- 이런 활성함수 트릭을 활용해 소프트맥스가 아닌 다른 활성함수를 사용하여 비선형함수를 모델링할 때 사용할 수 있다.
- 활성함수는 보통 선형모델이나 행렬곱을 사용하지 않고 비선형 함수로서 선형 모델로 나오게 되는 출력물 각각에 대한 원소에 적용하는 것이다. (벡터가 아닌 스칼라 값이 인풋)
- 선형 모델로 나온 출력물을 비선형 모델로 변환시킬 수 있고 변환된 벡터를 잠재 벡터, 히든 벡터 혹은 뉴런이라고 부른다.

다층(multi-layer) 퍼셉트론(MLP)은 신경망이 여러층 합성된 함수이다.
$1\, ... \,L$ 까지 순차적인 신경망 계산을 순전파(Forward propagation)이라고 부른다.

이론적으로는 2층 신경망으로도 임의의 연속함수를 근사할 수 있다. (Universal approximation theorem)
그러나 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적으로 학습이 가능하다.

경사하강법을 적용해서 각각의 가중치 행렬들을 학습시킬 때 각각의 가중치에 대한 그레디언트 벡터를 계산해야 경사하강법을 적용할 수 있다.

선형회귀모델에서 경사하강법을 적용할 때 선형모델의 계수에 해당하는 b에 그레디언트 벡터를 계산해서 파라미터를 업데이트했는데 딥러닝에서도 같다.
딥러닝에서는 각층에 존재하는 파라미터들의 미분을 계산해서 그 미분들을 가지고 파라미터를 업데이트 해야한다. 경사하강법에서 가중치를 업데이트할 때 행렬들의 y절편을 포함한 모든 원소의 개수만큼 경사하강법이 적용된다.
- 선형모델보다 많은 파라미터가 필요하다.