로짓함수 통계, 머신러닝에서 자주 사용되는 개념으로 특정 사건이 발생할 확률을 나타내는 함수이다.
로짓 함수는 확률을 log odds(로그 오즈)로 변환해준다.
그 식은 이하와 같다.
선형 관계의 유지
확률은 0과 1 사이의 값으로 제한되지만, 로그 오즈는 모든 실수 값을 가질 수 있다.
이를 통해 선형 회귀 모델에서 독립 변수와 종속 변수 간의 선형 관계를 유지할 수 있는데...
이 말이 무엇인고 하면
확률이 0.5에서 0.6으로 증가하는 것과 0.9에서 1.0으로 증가하는 것은 같은 0.1의 증가이지만 그 의미가 크게 다르다.
왜냐하면 50%확률이 60%되는 것은 비교적 작은 결과차이를 일으키지만,
90%에서 100%가 되는 것은 '확실한 사건'이 되는 큰 변화이기 때문이다.
이처럼 확률의 변화는 선형적이지 않기 때문에, 즉 확률의 증가가 결과의 의미와 비례하지 않기 때문에, 이를 그대로 사용하면 학습하는 모델이 해당 차이를 제대로 반영하지 못할 수 있다.
그래서 log odds 즉, logit 함수를 사용하면 확률의 비선형성을 해결할 수 있다.
로짓을 사용하면 단순히 0~1사이의 값으로 표현되는 것이 아니라 모든 실수 값을 가지기에 0.1의 확률 증가에 대한 비선형성을 선형적이게 해결할 수 있다.
예시로 보자면
동전 던지기에서 앞면이 나올 확률이 0.5라면, 오즈는 1:1이다. 이를 로그 오즈로 변환하면:
반면, 앞면이 나올 확률이 0.8이라면, 오즈는 4:1이고, 로그 오즈는:
이처럼 확률의 변화가 logit함수를 사용하면 보다 직관적으로 해석될 수 있다.
logit 함수를 사용하면 오즈 비율을 쉽게 해석할 수 있기에 앞서 예시로 든 계산 처럼 두 사건의 상대적 확률을 비교하는 데 유용하다.
예를 들어 로그 오즈가 0이면 사건이 발생할 확률과 발생하지 않을 확률이 같다는 것을 의미한다.
수학적 안정성
확률을 직접 사용하면 0이나 1에 가까운 값에서 계산이 불안정해질 수 있다. 로그 오즈를 사용하면 이란 극단값에대한 계산이 더 안정적이다.