통계 상식 정리

고독한 키쓰차·2022년 7월 31일
1

통계학

목록 보기
8/8

Probability vs Likelihood

Probability 는 사실 실상에서는 불가능한 경우가 많다.
예를들어, 동전을 던질때 앞면이 나올 확률은 0.5라고 한다. 근데, 진짜 0.5일까...? 아닐 확률이 높다. 왜냐하면, 동전이 세월을 거치며 모퉁이가 깨지기도 하고, 완벽한 비율을 가진 동전이 아닐 확률이 높기 때문이다.

그러면 이럴때 Likelihood 의 개념을 써야한다.
Probability 는 parameter 가 다 정해져 있는것이다. 즉 mean 과 standardm deviation이 고정되어 있는것!

하지만 Likelihood는 이러한 parameter 를 변수로 두고 그 변수가 나올 확률을 구하는것이다. 즉, 진짜 0.5가 나올 확률을 구하는것임.

그러브로 Sampling 된 데이터에 대해 접근을 해보게 된다. 전체 Random data에서는 확률을 계산하는것이 불가능하기 때문이지.

EigenValue vs EigenVector

EigenValue 는 흔히 알고있는 Lambda 값이고, EigenVector 는 그 Lamda와 곱해지는 vector 값임. 즉, 두개를 통해 해가 나오는것이다.
이것을 머신러닝에서 사용할때는, 차원을 축소할때 사용할 수 있을것이다.
아무래도 Overfitting이 될 경우에 차원을 축소해야 할 경우가 있는데, 그럴때 공통의 Lambda 값을 가지고, 그것을 대변할 수 있는 EigenVector 값을 찾는것임.

Sampling vs Resamplling

Sampling을 하는 이유는, 전수조사가 불가능하기 때문에다. 그럼 resampling 을 하는 이유는 sampling 된 데이터가 전체 데이터를 정말로 잘 대변하느냐를 체크할때 resampling 을 사용한다. 예를들어, hp 최적화를 할때, 우리는 주로 cv를 통해 하게된다. cv를 할때 내가 설정한 validation 셋을 다시 쪼개서 더욱더 최적의 hp를 찾는 과정이 resampling이라 할 수 있음

카이제곱검정

범주형 변수들간의 상관관계를 알아보고 싶을때 사용
예) 남,녀가 공부하는 공간이 차이가 있는가?
공간 vs 성별 이라는 두 범주형 변수들의 상관관계

The curse of dimensionality

row 의 갯수보다 column의 갯수가 더 많을 경우 발생함 -> 극도의 overfitting 가능성 큼

Metric

  • Precision(정밀도) : True 라고 분류한것 중에서 True인 것의 비율
  • Recall(재현율) : 실제로 True 인 것 중에서 모델이 True 라고 예측하는것의 비율
    두 지표 다 accuracy 를 보완해줄 수 있음
    쏠려있는 데이터에 대해 이런 현상이 일어날 가능성이 큼
    모든날이 눈이 안온다고 예측했을 경우에 정확도는 높음, 하지만 좋은 모델은 아님
    그러면 recall 로 보면, 모든날이 눈이 안온다고 예측했기 때문에, 실제로 눈이 온 경우에 모델이 눈이 왔다고 말하는 경우는 0 이기 때문에 recall 이 안좋음
    그러면 만약, 모든날이 눈이 온다고 예측하게될 경우에는, recall 이 1이 되게됨
    그러면 이럴때 precision으로 보면, 모든날이 눈이 온다고 예측한 데이터 중에서,
profile
Data Scientist or Gourmet

1개의 댓글

comment-user-thumbnail
2022년 11월 17일

잘 보고 갑니다!

답글 달기