📌 Summary
Swish
: 값에 따라 다른 특성을 가질 수 있는 activation function 의 한 종류GLU
: Component-wise product of two linear transformations of inputSwiGLU
: Swish 를 non-linear function 으로 사용하고, GLU 를 적용한 activation function
- 일 때, Sigmoid-weighted Linear Unit (
SiLU
) 로 동작- 일 때, 가 되어 scaled linear function 이 됨 ()
- 일 때, 가 0-1 function 처럼 되어
ReLU
와 유사해짐
Swish 특징에 의해, 다양한 모델에 대하여 ReLU 보다 성능이 좋음
bump
영역 에 빠지게 되므로 이는 중요한 영역임다양한 모델에 대하여 다른 activation 보다 성능이 우수함
GLUE
)SwiGLU
가 괜찮은 성능을 보임