2021.10.27 TIL

서승원·2021년 10월 27일
0

TIL

목록 보기
8/68

2021.10.27 TIL

C3. 기초 통계 분석

사분위수와 상자그림

quantile method 를 이용해 25백분위수, 75백분위수를 찾아 1사분위수와 3사분위수를 얻어낸다.

1,3 사분위수를 이용해 IQR 범위를 계산하고 stat_iqr 변수에 입력한다.

얻어낸 IQR범위를 이용해서 이상치를 찾아 bike_out 객체에 포함시켰다.

상관계수
두 변수 간에 선형적 관계가 있는지 분석

bike_sub 에 상관관계를 알아볼 변수들을 입력하고, corr 을 이용하면 피어슨, 켄달, 스피어만 상관계수를 계산할 수 있다.


scipy 라이브러리를 이용한 상관계수와 p-value를 얻어낼 수 있는 함수

등분산 검정 - Bartlett
두 집단의 분포가 정규성을 따를 경우 사용한다.

귀무가설은 '두 변수의 분산이 같다.' bartlett 검정을 한 후 p-value를 봤을 때, 귀무가설이 기각되고, 두 변수의 분산이 다르다는 대립가설이 확정된다.
독립성 검정 - chi2_contigency

귀무가설은 '두 변수가 서로 독립이다.'scipy의 chi2_contigency를 이용해 "serious_yn" "sex" 두 변수의 독립성을 검정한다.
stat , p ,dof , exp 순서로 출력된다.

t-검정
단일 표본 t-검정으로 모평균과 표본평균의 차이를 검정한다.

실제 표본평균은 5.84 정도로 popmean 으로 설정한 모평균의 값이 가까워질수록 p-value의 값 역시 커지는 것을 확인할 수 있다.

대응표본 t-검정과 독립표본 t-검정이다.
scipy의 ttest로 검정할수 있고 , stat과 p 라는 변수에 검정 결과를 입력한다.

세 집단 검정
일원 분산부석 : 종속변수1개, 독립변수 1개를 비교한다. 분산,총평균과 각 변수의 평균의 차이에 의해 생긴 분산의 비교로 가설검정.

세 변수를 f_oneway 함수에 입력하면 p-value를 얻을 수 있다.

profile
2년차 백엔드 개발자, crimy

0개의 댓글