Hypothesis testing in Machine learning using Python (한글해석)

Heejin Jo·2021년 3월 12일
0

AI

목록 보기
6/13

아직 data manipulation 과 시각화도 정리를 못했지만...
오늘 배운 가설검증은 이거 정리 안 하면서 진행하다가는 진짜 큰일 나겠다 싶어
먼저 정리하면서 진행하려고 한다.

우선 참고한 곳을 간략하게 한글로 정리해보겠다.
Hypothesis testing in Machine learning using Python
단, 단어는 헷갈리니까 영어를 기준으로 왜냐?

지금 이걸 영어로 보면서 하는 이유가 영어 -> 일본어 -> 한자 -> 한국어 거치면서 들어온 개념이 많아서 한국어로 보면 오히려 더 헷갈려서 제대로 이해를 하려면 결국 영어로 보는게 가장 빠르다.

1. 가설검증(hypothesis test)이란?

: 모집단(population)을 추정하기 위해 사용되는 수학, 통계적 검증 방법을 모두 일컫는다

2. 이거 왜 써?

: 모집단에 대한 상호배탁적인 두 statement를 비교, 표본이 어떤 statement를 잘 보여주는지 알기 위해 쓴다. 여기서 중요한 말은

When we say that a finding is statistically significant,
it’s thanks to a hypothesis test.

라는 말인데 finding is statistically significant라는 말은 통계적으로 유의미하다고 한국말로 하고 이 finding이 맞을 확률이 꽤나 높다는 뜻을 가지고 있따.

3. 가설 basic 보여줘

: 정규화와 표준정규화
둘의 차이는 링크에 참조된 이미지 보면 알겠지만
일단 '정규화(nomalize)' 라는 말은 단봉성(잘못된 데이터가 있으면 이봉성이 된다)
'표준정규화'는 규격이 딱! 정해져 있는 단봉성
다른 거 다 기억 못해도 이건 기억하자

표준정규화가 된 데이터(standardised normal data) :
평균(mean) =0
분산(variance) =1

여기서 말하는 mean, mode, median 은 중심을 구하는 방법이구
우리가 흔히 쓰는게 mean이라 그렇지 중심을 구하는 방법은 사실 다양하다.

정규분포(Normal Distribution)

: bell-shaped = normal curve = 종 모양 = 정규 분포 모양

표준정규분포(Standardised Normal Distribution)

:정규분포 모양이면서 평균(mean)은 0 표준편차(standard deviation)는 1

어떤 매개변수(parameter)가 가설검증에 개중요할까

나 근데 저기서 왜 매개변수라 하는지 모르겠네. 귀무가설이나 대안가설 이거 다 가설검증의 한 방법 아닌가 왜 변수라고 부르지.

귀무가설(Null hypothesis)

: 저 단어만 보면 대체 뭔소린지 감이 안온다.
이 사이트에서는 변수들간 서로 상관없는 경우의 가설을 말한다. (없어)null하다는 거다 서로

뜻은 이게 맞다면! 이라고 생각하는 거
예를 들어
'겨울이니까 패딩을 입는 사람이 많을 것이다.' 라는 생각이 귀무가설

*여기서 잠깐 상관관계와 인과관계를 생각해보자
어떤 통계자료에서 익사사고와 아이스크림 판매의 관계를 조사했는데 비례했다고 하자
여기서 아이스크림을 많이 먹어서 익사 사고가 많이 났다고 할 것인가? 아니다
'여름'이라는 상관계수(correlation)이 있기 때문에 '더워서' 익사사고도 많이 일어나고 아이스크림도 많이 판매된 것이다. 인과관계와 혼동하지 말자

대안가설(Alternative hypothesis)

: 귀무가설의 반대
'얼죽코! 겨울이어도 코트 입는 사람 더!많아'

더 확률적으로 표현해보자면

P = 귀무가설
1-P = 대안가설

*이 때 P는 확률을 뜻하며 모든 확률은 0~1의 값을 가진다. 즉 둘을 뺐을 때 0이 되는 관계가 귀무가설과 대안가설, 서로 직접적으로 정반대

사실 p를 귀무가설과 같다고 보는 건 어폐가 있지만 좀 더 편한 이해를 위해 위와 같이 적었따.
덧붙여 p와 alpha가 헛갈릴 경우
P와 alpha의 차이
이 링크를 참고하자.

일단 다시 정리해야함**

profile
core를 기르자

0개의 댓글