딥러닝 하이퍼파라미터

은영·2023년 9월 12일

hidden layer 뉴런 수

이를 늘릴 경우 더 구체화된 패턴을 학습하여 훈련 데이터에 적합하게 만들 수 있다. 하지만 모델 복잡도가 높아져 오버피팅의 위험이 있다.
epochs

에폭 수만큼 학습을 한 후 가장 손실함수가 적은 값을 가질 때의 가중치 값을 지닌 모델로 선택
batch_size

모델 학습 시 데이터 전체를 한 번에 학습하는 것이 아니라 배치 단위로 잘라서 학습시키면서 가중치 업데이트, 고로 batch_size가 작아지면 더 자주 가중치를 업데이트 하게 되고 값이 커지면 비교적 더 적게 업데이트를 하게 된다.
activation function 활성 함수

대개 ReLU니 leaky ReLU의 경우 은닉층에서 많이 사용하며 시그모이드나 소프트맥스의 경우 출력층에서 많이 사용한다.
learning rate 학습률

gradient descent를 통해 최적해, 손실함수가 가장 적을 때 가중치 값을 찾기 위해서는 미분을 통해 방향을 찾아 이동하나, 그 이동하는 크기를 학습률이라고 한다. 학습률이 클 경우 진동해서 학습이 제대로 되지 않을 수 있으며 작을 경우 학습이 지나치게 천천히 될 수 있다.
loss fucntion 손실 함수

실제 값과 예측 값의 차이를 설명할 수 있는 함수. 어떤 함수를 쓸 건지는 데이터와 모델에 따라 적절한 것 선택해야 함
optimizer 최적화 함수

가중치를 최적화할 때 어떤 방법을 쓰느냐.

은영

이전 포스트

GRU, LSTM

다음 포스트

딥러닝 하이퍼파라미터

GRU, LSTM

MLP(Multi-Layer-Perceptron)

0개의 댓글

관련 채용 정보