치역이 [0,1]에 있어 Regression algorithm에 사용될 가능성 있음
수식적 성질은 아래와 같고
이로부터 도함수 그래프 그리면 아래와 같아서
x 값이 커지면 0으로 수렴해 layer가 증가할수록 gradient vanish 문제가 생길 수 있다는 단점이 존재한다. -> ReLU로 대체가능
Binary classification 상황을 가정하면 확률 표현은 아래와 두 가지 중 하나로 가능하다.
위의 확률 표현은 Likelihood 함수를 의미하기도 하며 Log likelihood를 구하면 아래와 같다.
Cross-entrophy 의 정의는 위의 함수에 음의 부호(-)가 붙은 것과 동일하며 우리는 maximum log likelihood를 목표로 하기 때문에 이는 동시에 Cross Entrophy의 최소화를 의미한다.
그래프 출처
https://machinelearningmastery.com/a-gentle-introduction-to-sigmoid-function/