[DL] Activation Function과 Loss Function

김선형·2025년 9월 19일

DL

목록 보기
2/4

Activation Function

각 Layer에서 비선형 변환을 적용해, 신경망이 더 잘 학습하고 복잡한 작업을 수행할 수 있도록 한다.

Sigmoid Function

ϕ(z)=11+ez\phi\left(z\right)=\frac{1}{1+e^{-z}}

Sigmoid 함수는 입력값을 0과 1 사이의 값으로 압축한다. Binary Classification Problem에 적합하며, 신경망의 Output Layer에서 주로 사용된다.
입력값이 극단적인 경우에도 출력값이 0 또는 1에 가까워지며, 이로 인해 Gradient Vanishing이 발생할 수 있다.

Tanh

tanh(z)=2σ(2z)1\tanh\left(z\right)=2\sigma\left(2z\right)-1

Hyperbolic Tangent는 Sigmoid Function을 단순히 rescale 및 shift한 것이다. RNN, LSTM에서 사용한다.
Sigmoid와 유사하지만 출력값이 0 중심으로 분포되어 Gradient Vanishing 문제가 덜 발생한다.

Softmax Function

σ(zi)=ezij=1Kezj\sigma(z_i)=\frac{e^{z_i}}{\sum_{j=1}^K{e^{z_j}}}

Softmax 함수는 Output을 0과 1 사이로 압축하고, 각 클래스 값이 전체 값에서 차지하는 확률을 계산한다. 여러 출력 클래스 값에 대해, 출력 확률의 합은 항상 1이 된다. 일반적으로 Multi Class Classification의 마지막 Layer에서 사용한다.

ReLU (Rectified Linear Unit)

f(x)=max(0,x)f(x)=\max(0,x)

ReLU는 단순한 비선형 함수로, 입력이 양수이면 그대로 반환하고, 음수이면 0으로 반환한다. 신경망의 Hidden Layer에서 가장 널리 사용된다.
계산이 간단하고 Gradient Vanishing 문제가 적다.

Leaky ReLU

f(x)={xif x0axotherwisef(x) = \begin{cases} x & \text{if } x \geq 0 \\ a \cdot x & \text{otherwise} \end{cases}

ReLU의 개선된 버전으로, Gradient Vanishing 문제를 해결하기 위해 등장했다. 음수 입력에 대해 작은 기울기를 유지하여 Gradient가 0이 되는 것을 피할 수 있다.

Activation Function

Loss Function

예측값과 실제값의 차이를 어떻게 계산할지 정의하여, 신경망 모델이 정답으로부터 얼마나 멀리 벗어나 있는지 알려준다.

MSE (Mean Squared Error)

1Ni=1N(y^y)2\frac{1}{N}\sum_{i=1}^N {\left(\hat{y}-y\right)^2}

MAE (Mean Absolute Error)

1Ni=1Ny^y\frac{1}{N}\sum_{i=1}^N {\lvert \hat{y}-y\rvert}

Binary Cross Entropy

BCE Loss=iyilog(y^i)(1yi)log(1y^i)\text{BCE Loss}=\sum_i{-y_i\log\left(\hat{y}_i\right)-\left(1-y_i\right)\log\left(1-\hat{y}_i\right)}

Binary Classification에서 사용하며, 일반적으로 마지막 Layer에 Sigmoid Activation을 추가한다.

Cross Entropy Loss

CE Loss(yi,y^i)=i=1Cyilog(y^i)\text{CE Loss} \left(y_i, \hat{y}_i\right) = - \sum_{i=1}^{C} y_i \log\left(\hat{y}_i\right)

Multi-Class Problem에서 사용한다.

profile
선형의 비선형적 기록 🐜

0개의 댓글