Probability 는 사실 실상에서는 불가능한 경우가 많다.
예를들어, 동전을 던질때 앞면이 나올 확률은 0.5라고 한다. 근데, 진짜 0.5일까...? 아닐 확률이 높다. 왜냐하면, 동전이 세월을 거치며 모퉁이가 깨지기도 하고, 완벽한 비율을 가진 동전이 아닐 확률이 높기 때문이다.
그러면 이럴때 Likelihood 의 개념을 써야한다.
Probability 는 parameter 가 다 정해져 있는것이다. 즉 mean 과 standardm deviation이 고정되어 있는것!
하지만 Likelihood는 이러한 parameter 를 변수로 두고 그 변수가 나올 확률을 구하는것이다. 즉, 진짜 0.5가 나올 확률을 구하는것임.
그러브로 Sampling 된 데이터에 대해 접근을 해보게 된다. 전체 Random data에서는 확률을 계산하는것이 불가능하기 때문이지.
EigenValue 는 흔히 알고있는 Lambda 값이고, EigenVector 는 그 Lamda와 곱해지는 vector 값임. 즉, 두개를 통해 해가 나오는것이다.
이것을 머신러닝에서 사용할때는, 차원을 축소할때 사용할 수 있을것이다.
아무래도 Overfitting이 될 경우에 차원을 축소해야 할 경우가 있는데, 그럴때 공통의 Lambda 값을 가지고, 그것을 대변할 수 있는 EigenVector 값을 찾는것임.
Sampling을 하는 이유는, 전수조사가 불가능하기 때문에다. 그럼 resampling 을 하는 이유는 sampling 된 데이터가 전체 데이터를 정말로 잘 대변하느냐를 체크할때 resampling 을 사용한다. 예를들어, hp 최적화를 할때, 우리는 주로 cv를 통해 하게된다. cv를 할때 내가 설정한 validation 셋을 다시 쪼개서 더욱더 최적의 hp를 찾는 과정이 resampling이라 할 수 있음
범주형 변수들간의 상관관계를 알아보고 싶을때 사용
예) 남,녀가 공부하는 공간이 차이가 있는가?
공간 vs 성별 이라는 두 범주형 변수들의 상관관계
row 의 갯수보다 column의 갯수가 더 많을 경우 발생함 -> 극도의 overfitting 가능성 큼
잘 보고 갑니다!