[빅데이터분석기사 실기] 3유형 요약

gosu·2023년 12월 1일
0
post-thumbnail
post-custom-banner

가설검정

0. 정규성 검정

0-1. 정규성검정

  • 샤피로 테스트 하면 됨.
  • 귀무가설 : 정규성을 따른다
  • 대립가설 : 정규성을 따르지 않는다
from scipy.stats import shapiro

0-2. 등분산검정

  • 바틀렛 테스트 하면 됨
  • 귀무가설 : 등분산한다
  • 대립가설 : 등분산하지 않는다
from scipy.stats import bartlett

1. 모집단1개일 때

1-1. 정규성을 따른다.

  • ttest 시행하면 된다.
from scipy.stats import ttest
  • alternative 기본값으로 two-side, 같다
  • less, greater 파라미터를 받을 수 있다.

1-2. 정규성을 따르지 않는다.

  • wilxon 검정을 하면 된다.

2. 모집단 1개지만 전,후 상황 비교해야할 때 (대응표본 ttest)

2-1. 정규성을 따른다.

  • ttest_rel

2-2. 정규성을 따르지 않는다.

  • wilcoxon

3. 모집단 2개 비교

3-1. 정규성을 따른다

  • ttest_ind
  • equal_var=True 와 같이 파라미터를 조정하여 등분산 정도를 기입해준다.

3-2. 정규성을 따르지 않는다

  • ranksum

4. 모집단 3개 이상

4-1. 정규성을 따른다

  • f_oneway
  • 일반적으로 등분산이냐, 등분산이 아니냐 문제는 출제되지 않는다. 패키지가 없다고함.

4-2. 정규성을 따르지 않는다.

  • kruskal (2명은 보통 크루(crew)라고 안한다. 3명 이상부터 crew라고 하므로 kruskal 검정을 함.)
  • 하나의 컬럼이라도 정규성을 따르지 않는다면 비모수방법을 써야함

5. 적합도 검정, 독립성 검정

5-1. 적합도 검정

  • chisquare
from scipy.stats import chisquare

5-2. 독립성 검정

  • 귀무가설 : 상관없다
  • chi2_contingency

5-3. 컬럼을 제대로 전처리해서 주지 않았을 경우

  • pd.crosstab() 함수를 쓰자. 외우진 못할것같고 help(pd.crosstab) 검색해서 사용법 보고 적자.

선형회귀분석

1. 선형회귀

1-1. model 쓰는 경우

from sklearn.linear_model import LinearRegression
  • 이렇게 불러오고 순차적으로 fit, coef_ 로 각각 변수에 대한 상관계수 구하면된다.

1-1. statsmodels api사용

  • 하는법 외우자. 유용하다
import statsmodels.api as sm
x = sm.add_constant(x)
sm.OLS(y,x).fit().summary()

2. 로지스틱 회귀

2-1. model 쓰는 경우

from sklearn.linear_model import LogisticRegression

2-2. statsmodels.api

import statsmodels.api as sm
x = sm.add_constant(x)
sm.Logit(y,x).fit().summary()
profile
개발자 블로그 ^0^
post-custom-banner

0개의 댓글