양적 연구: 통계적, 계산적 기법을 이용하여 사회 현상 연구
질적 연구: 수치화되지 않는 자료에 대한 해석적 연구
모집단 확정->표집틀, 표집방법 선정->표본 확정
확률표집 : 단순무작위표집, 체계표집(일정한 간격), 층화표집
비확률표집 : 편의표집, 의도적 표집, 할당표집
명목척도 : 서로 다른 속성 정보{카이제곱 교차분석} - 성별, 국적, 출신 학교, 종교
서열척도 : 순위정보 - 백분위수, 랭킹, 순위, 매우 그렇다~ 전혀 그렇지 않다
등간척도 : 측정시간의 거리 비교 가능, 절대 0/존재 안하는 게 아니다 - 연, 온도, IQ
비율척도 : 비율 또는 퍼센트로 비교 가능 + 절대영/존재 안 하는 게 있다. - 거리, 시간, 무게, 나이, 출생률, 졸업생 수, 수입
가설검정 : 가설을 세우고, 데이터 분석을 통해 가설을 검증하는 것
H0 귀무가설 : 변수 간의 관계가 없다
H1 대립가설 : 변수 간의 관계가 있다
1종 오류 : H0이 사실인데 기각한 경우
2종 오류 : H0이 사실이 아닌데 채택한 경우
명목척도: 분포가 같은지, 다른지 조사
p-value 0.05
비율척도: 평균이 같은지, 다른지 조사
주의: 평균값이 같더라도 분산이 크면 두 집단에 차이가 있다는 결론
사례 수가 많을수록 통계적 자신감 증가
t값이 클수록 평균 차이가 크지만 임계점은 p-value로 설정,
비율척도: 세 집단의 평균이 같은지, 다른지 조사
평균값/집단간 분산/집단내 분산으로 f분포를 확인
집단 내 분산이 작을수록, 의미있다고 봐서 f값 크고
집단 간 분산이 클수록 집단 간 차이가 있다고 봐서 f값이 크다
p-value 0.05
양의 상관관계/음의 상관관계/관계 없음
pearson의 상관계수 r: 두 변수의 관계가 얼마나 강한지 표시해주는 지수 1~0~-1
절댓값이 1에 가까울수록 강한 상관관계, 0에 가까울수록 관계 없음
H0 x와 y 사이에 상관관계가 없다.
H1 x와 y 사이에 상관관계가 있다.
역시 임계점은 p-value로 설정
독립변수에 근거하여 종속변수를 "예측/설명"할 수 있는가?
회귀방정식: Y = ax + b + e
r 스퀘어 r제곱 값 결정계수: 회귀선의 종속변수에 대한 독립변수의 설명력
설명된 변화량/총 변화량, 1에 근접할수록 설명력이 크다
회귀계수: a 회귀선의 기울기
intercept y절편
p-value 0.05 임계점,
multiple r-squared: 설명력
표준화회귀계수:각 독립변수 중 어떤 변수가 영향력이 높은지 비교하기 위한 것
각 독립변수의 회귀계수에 자신의 표준편차/종속변수의 표준편차를 곱한 값
이를 통해 독립변수의 표준편차 변화량에 따른 종속변수의 표준편차 변화량을 알 수 있다
표준화회귀계수 베타값: 절댓값이 큰 변수가 가장 영향력이 크다
VIF: 독립변수들 간에 상관관계가 있는가?5 이하면 문제 없지만 10에 가까울수록 그 변수 삭제
Intercept y절편
표준오차 값이 클수록 회귀선에서 떨어진 분포
P-value 전체 모델의 p-값
Pr(>|t|) 각각의 독립변수들의 p-값
다중회귀 결정계수/설명력은 adjusted r-sqauared 값으로 판단
유의미한지는 p-value값으로 파악
각 독립변수의 p-value값으로 각 변수의 유의미함 파악
"""독립변수 1 증가할 때 log odds가 회귀계수값, estimate값 만큼 증가"""
"""독립변수 1 증가할 때 종속 변수의 odd ratio가 exp(coef(log.reg1)) 값만큼 증가"""
pseudo-r square, 수도 회귀계수값을 쓴다.
독립변수가 1단위증가하면 log odds가 그만큼 증가한다.
log를 떼어내기 위해 exp를 붙여준다.
회귀계수가 양수이면 확률이 높아지는 것이고
회귀계수가 음수이면 확률이 낮아지는 것이다.
exp값이 1.015라면 1.5%증가하는 것이고
exp값이 0.09라면 90% 감소하는 것이다.