가설검정
0. 정규성 검정
0-1. 정규성검정
- 샤피로 테스트 하면 됨.
- 귀무가설 : 정규성을 따른다
- 대립가설 : 정규성을 따르지 않는다
from scipy.stats import shapiro
0-2. 등분산검정
- 바틀렛 테스트 하면 됨
- 귀무가설 : 등분산한다
- 대립가설 : 등분산하지 않는다
from scipy.stats import bartlett
1. 모집단1개일 때
1-1. 정규성을 따른다.
from scipy.stats import ttest
- alternative 기본값으로 two-side, 같다
- less, greater 파라미터를 받을 수 있다.
1-2. 정규성을 따르지 않는다.
2. 모집단 1개지만 전,후 상황 비교해야할 때 (대응표본 ttest)
2-1. 정규성을 따른다.
2-2. 정규성을 따르지 않는다.
3. 모집단 2개 비교
3-1. 정규성을 따른다
- ttest_ind
- equal_var=True 와 같이 파라미터를 조정하여 등분산 정도를 기입해준다.
3-2. 정규성을 따르지 않는다
4. 모집단 3개 이상
4-1. 정규성을 따른다
- f_oneway
- 일반적으로 등분산이냐, 등분산이 아니냐 문제는 출제되지 않는다. 패키지가 없다고함.
4-2. 정규성을 따르지 않는다.
- kruskal (2명은 보통 크루(crew)라고 안한다. 3명 이상부터 crew라고 하므로 kruskal 검정을 함.)
- 하나의 컬럼이라도 정규성을 따르지 않는다면 비모수방법을 써야함
5. 적합도 검정, 독립성 검정
5-1. 적합도 검정
from scipy.stats import chisquare
5-2. 독립성 검정
- 귀무가설 : 상관없다
- chi2_contingency
5-3. 컬럼을 제대로 전처리해서 주지 않았을 경우
- pd.crosstab() 함수를 쓰자. 외우진 못할것같고 help(pd.crosstab) 검색해서 사용법 보고 적자.
선형회귀분석
1. 선형회귀
1-1. model 쓰는 경우
from sklearn.linear_model import LinearRegression
- 이렇게 불러오고 순차적으로 fit, coef_ 로 각각 변수에 대한 상관계수 구하면된다.
1-1. statsmodels api사용
import statsmodels.api as sm
x = sm.add_constant(x)
sm.OLS(y,x).fit().summary()
2. 로지스틱 회귀
2-1. model 쓰는 경우
from sklearn.linear_model import LogisticRegression
2-2. statsmodels.api
import statsmodels.api as sm
x = sm.add_constant(x)
sm.Logit(y,x).fit().summary()