2021.10.27 TIL
사분위수와 상자그림
quantile method 를 이용해 25백분위수, 75백분위수를 찾아 1사분위수와 3사분위수를 얻어낸다.
1,3 사분위수를 이용해 IQR 범위를 계산하고 stat_iqr 변수에 입력한다.
얻어낸 IQR범위를 이용해서 이상치를 찾아 bike_out 객체에 포함시켰다.
상관계수
두 변수 간에 선형적 관계가 있는지 분석
bike_sub 에 상관관계를 알아볼 변수들을 입력하고, corr 을 이용하면 피어슨, 켄달, 스피어만 상관계수를 계산할 수 있다.
scipy 라이브러리를 이용한 상관계수와 p-value를 얻어낼 수 있는 함수
등분산 검정 - Bartlett
두 집단의 분포가 정규성을 따를 경우 사용한다.
귀무가설은 '두 변수의 분산이 같다.' bartlett 검정을 한 후 p-value를 봤을 때, 귀무가설이 기각되고, 두 변수의 분산이 다르다는 대립가설이 확정된다.
독립성 검정 - chi2_contigency
귀무가설은 '두 변수가 서로 독립이다.'scipy의 chi2_contigency를 이용해 "serious_yn" "sex" 두 변수의 독립성을 검정한다.
stat , p ,dof , exp 순서로 출력된다.
t-검정
단일 표본 t-검정으로 모평균과 표본평균의 차이를 검정한다.
실제 표본평균은 5.84 정도로 popmean 으로 설정한 모평균의 값이 가까워질수록 p-value의 값 역시 커지는 것을 확인할 수 있다.
대응표본 t-검정과 독립표본 t-검정이다.
scipy의 ttest로 검정할수 있고 , stat과 p 라는 변수에 검정 결과를 입력한다.
세 집단 검정
일원 분산부석 : 종속변수1개, 독립변수 1개를 비교한다. 분산,총평균과 각 변수의 평균의 차이에 의해 생긴 분산의 비교로 가설검정.
세 변수를 f_oneway 함수에 입력하면 p-value를 얻을 수 있다.