Likelihood는 주어진 데이터 X 가 있을 때 해당 데이터를 설명하려 하는 모델이 얼마나 그럴듯한지를 계산하는 것.
해당 모델의 파라미터 값 하에서 주어진 데이터가 나올 확률을 계산하는 함수로,
로 표현될 수 있다. 이 때 는 해당 데이터를 설명하기 적합하다고 생각되어지는 분포의 식을 사용한다. 파라미터 역시 해당 분포에서 쓰이는 파라미터를 의미하다.
당연하게도, 어떤 파라미터 하에서 주어진 데이터가 나올 확률이 크면 클수록 좋은 모델이라고 할 수 있다.
계산의 편의성을 위해 Log-Likelihood를 많이 사용하는데, 로그를 취하면 곱이 합으로 바뀌어 수학적으로 다루기 쉬워지기 때문이다.
Maximum Likelihood Estimation은 log-likelihood를 최대화하는 파라미터 를 찾는 것으로, 로그우도 식을 미분한 후 0으로 두어 찾는다.
Deviance란, 현재 모형이 포화 모형에 비해 얼마나 데이터를 덜 설명하는지를 나타낸다.
여기서 현재 모형이란 데이터를 설명하기 위해 실제 내가 쓰고 있는 작업 중인 모델을 뜻하고, 포화 모형이란 가능한 모든 공변량 패턴에 대해 파라미터가 있는 모델을 뜻한다.
포화 모형에 대해 더 쉽게 설명하자면,
관측값마다 설명변수 조합이 있을 것인데, 고유한 설명변수 조합(ex. sex, age, height을 설명변수로 하고 있다면 여성+30대+150cm인 어떤 관측값이 있을 때, 해당 설명변수 조합에 파라미터 하나를 부여하는 식이다)마다 파라미터를 다 부여하는 모델로, 만약 설명변수 조합이 모든 관측값에 대해 unique하다면 포화 모형은 완벽하게 데이터를 설명할 수 있게 된다.
Deviance는 이런 포화 모형에 비해 현재 모형이 얼마나 예측을 덜 완벽하게 하느냐를 측정한다.
Deviance를 하필 로그우도함수의 차에 -2를 곱한 값으로 하는 이유는 이렇게 하면 관측값의 개수가 충분히 많을 때 deviance가 카이제곱 분포를 따르게 되기 때문이다.
log likelihood ratio test의 귀무가설은 단순한 모델만으로 충분하다 (추가 설명변수가 필요 없다) 는 것이다.
반대로 대립가설은, 추가된 설명변수 중 적어도 하나는 유의미하다는 것이다.
검정통계량은 deviance이다.
따라서 검정통계량의 분포는 카이제곱 분포로 근사하는데, 이 때 자유도는 추가된 변수의 개수이다.
포화 모형과 반대되는 개념으로 귀무 모형(null model)이 있다. 설명변수가 없이 전체 데이터의 평균값만 반영하는 모델 (intercept만 존재) 이다.
log likelihood ratio test를 통해 현재 모델의 변수 중 하나 이상은 유의미하다는 것을 보이기 위해 null model과 현재 모델간의 deviance를 구한다.
결국 카이제곱분포를 통해 deviance가 계산된 값 이상으로 극단값을 가질 확률을 구할 수 있고, p-value를 통해 설명변수가 유의미한지 볼 수 있다.