[DL] Activation Function과 Loss Function

김선형·2025년 9월 19일

DL

목록 보기

2/4

Activation Function

각 Layer에서 비선형 변환을 적용해, 신경망이 더 잘 학습하고 복잡한 작업을 수행할 수 있도록 한다.

Sigmoid Function

\phi\left(z\right)=\frac{1}{1+e^{-z}}

Sigmoid 함수는 입력값을 0과 1 사이의 값으로 압축한다. Binary Classification Problem에 적합하며, 신경망의 Output Layer에서 주로 사용된다.
입력값이 극단적인 경우에도 출력값이 0 또는 1에 가까워지며, 이로 인해 Gradient Vanishing이 발생할 수 있다.

Tanh

\tanh\left(z\right)=2\sigma\left(2z\right)-1

Hyperbolic Tangent는 Sigmoid Function을 단순히 rescale 및 shift한 것이다. RNN, LSTM에서 사용한다.
Sigmoid와 유사하지만 출력값이 0 중심으로 분포되어 Gradient Vanishing 문제가 덜 발생한다.

Softmax Function

\sigma(z_i)=\frac{e^{z_i}}{\sum_{j=1}^K{e^{z_j}}}

Softmax 함수는 Output을 0과 1 사이로 압축하고, 각 클래스 값이 전체 값에서 차지하는 확률을 계산한다. 여러 출력 클래스 값에 대해, 출력 확률의 합은 항상 1이 된다. 일반적으로 Multi Class Classification의 마지막 Layer에서 사용한다.

ReLU (Rectified Linear Unit)

f(x)=\max(0,x)

ReLU는 단순한 비선형 함수로, 입력이 양수이면 그대로 반환하고, 음수이면 0으로 반환한다. 신경망의 Hidden Layer에서 가장 널리 사용된다.
계산이 간단하고 Gradient Vanishing 문제가 적다.

Leaky ReLU

f(x) = \begin{cases} x & \text{if } x \geq 0 \\ a \cdot x & \text{otherwise} \end{cases}

ReLU의 개선된 버전으로, Gradient Vanishing 문제를 해결하기 위해 등장했다. 음수 입력에 대해 작은 기울기를 유지하여 Gradient가 0이 되는 것을 피할 수 있다.

Activation Function

Loss Function

예측값과 실제값의 차이를 어떻게 계산할지 정의하여, 신경망 모델이 정답으로부터 얼마나 멀리 벗어나 있는지 알려준다.

MSE (Mean Squared Error)

\frac{1}{N}\sum_{i=1}^N {\left(\hat{y}-y\right)^2}

MAE (Mean Absolute Error)

\frac{1}{N}\sum_{i=1}^N {\lvert \hat{y}-y\rvert}

Binary Cross Entropy

\text{BCE Loss}=\sum_i{-y_i\log\left(\hat{y}_i\right)-\left(1-y_i\right)\log\left(1-\hat{y}_i\right)}

Binary Classification에서 사용하며, 일반적으로 마지막 Layer에 Sigmoid Activation을 추가한다.

Cross Entropy Loss

\text{CE Loss} \left(y_i, \hat{y}_i\right) = - \sum_{i=1}^{C} y_i \log\left(\hat{y}_i\right)

Multi-Class Problem에서 사용한다.

김선형

선형의 비선형적 기록 🐜

이전 포스트

[DL] Neural Network

다음 포스트

[DL] Activation Function과 Loss Function

DL

Activation Function

Sigmoid Function

Tanh

Softmax Function

ReLU (Rectified Linear Unit)

Leaky ReLU

Loss Function

MSE (Mean Squared Error)

MAE (Mean Absolute Error)

Binary Cross Entropy

Cross Entropy Loss

[DL] Neural Network

[DL] Optimizer Function

0개의 댓글