R 프로그래밍 연구방법

코와->코어·2021년 12월 3일

R 프로그래밍 교차분석 로지스틱 회귀분석 상관관계 분석 평균분석 회귀분석

R 프로그래밍

목록 보기

1/2

양적 연구: 통계적, 계산적 기법을 이용하여 사회 현상 연구
질적 연구: 수치화되지 않는 자료에 대한 해석적 연구

모집단 확정->표집틀, 표집방법 선정->표본 확정
확률표집 : 단순무작위표집, 체계표집(일정한 간격), 층화표집
비확률표집 : 편의표집, 의도적 표집, 할당표집

명목척도 : 서로 다른 속성 정보{카이제곱 교차분석} - 성별, 국적, 출신 학교, 종교
서열척도 : 순위정보 - 백분위수, 랭킹, 순위, 매우 그렇다~ 전혀 그렇지 않다
등간척도 : 측정시간의 거리 비교 가능, 절대 0/존재 안하는 게 아니다 - 연, 온도, IQ
비율척도 : 비율 또는 퍼센트로 비교 가능 + 절대영/존재 안 하는 게 있다. - 거리, 시간, 무게, 나이, 출생률, 졸업생 수, 수입

가설검정 : 가설을 세우고, 데이터 분석을 통해 가설을 검증하는 것
H0 귀무가설 : 변수 간의 관계가 없다
H1 대립가설 : 변수 간의 관계가 있다

1종 오류 : H0이 사실인데 기각한 경우
2종 오류 : H0이 사실이 아닌데 채택한 경우

{1. 교차분석 카이제곱 명목척도}

명목척도: 분포가 같은지, 다른지 조사
p-value 0.05

{2. 두 집단 평균 비교 t-test 비율척도}

비율척도: 평균이 같은지, 다른지 조사
주의: 평균값이 같더라도 분산이 크면 두 집단에 차이가 있다는 결론
사례 수가 많을수록 통계적 자신감 증가
t값이 클수록 평균 차이가 크지만 임계점은 p-value로 설정,

{3. 세 집단 평균비교 ANOVA 비율척도}

비율척도: 세 집단의 평균이 같은지, 다른지 조사
평균값/집단간 분산/집단내 분산으로 f분포를 확인
집단 내 분산이 작을수록, 의미있다고 봐서 f값 크고
집단 간 분산이 클수록 집단 간 차이가 있다고 봐서 f값이 크다
p-value 0.05

{4. 상관관계 분석: 변수 간의 상관관계}

양의 상관관계/음의 상관관계/관계 없음
pearson의 상관계수 r: 두 변수의 관계가 얼마나 강한지 표시해주는 지수 1~0~-1
절댓값이 1에 가까울수록 강한 상관관계, 0에 가까울수록 관계 없음
H0 x와 y 사이에 상관관계가 없다.
H1 x와 y 사이에 상관관계가 있다.
역시 임계점은 p-value로 설정

{5. 회귀분석 : x와 y의 "인과관계"를 분석}

독립변수에 근거하여 종속변수를 "예측/설명"할 수 있는가?
회귀방정식: Y = ax + b + e
r 스퀘어 r제곱 값 결정계수: 회귀선의 종속변수에 대한 독립변수의 설명력
설명된 변화량/총 변화량, 1에 근접할수록 설명력이 크다
회귀계수: a 회귀선의 기울기
intercept y절편
p-value 0.05 임계점,
multiple r-squared: 설명력

{6. 다중회귀분석 : 독립변수가 2개 이상인 회귀분석}

표준화회귀계수:각 독립변수 중 어떤 변수가 영향력이 높은지 비교하기 위한 것
각 독립변수의 회귀계수에 자신의 표준편차/종속변수의 표준편차를 곱한 값
이를 통해 독립변수의 표준편차 변화량에 따른 종속변수의 표준편차 변화량을 알 수 있다
표준화회귀계수 베타값: 절댓값이 큰 변수가 가장 영향력이 크다

VIF: 독립변수들 간에 상관관계가 있는가?5 이하면 문제 없지만 10에 가까울수록 그 변수 삭제
Intercept y절편
표준오차 값이 클수록 회귀선에서 떨어진 분포
P-value 전체 모델의 p-값
Pr(>|t|) 각각의 독립변수들의 p-값
다중회귀 결정계수/설명력은 adjusted r-sqauared 값으로 판단

{7. 회귀진단: 이 모형이 적절한 모형인가?}

독립변수들 간에 상관관계가 높으면 안 됨 : vif가 5 이하여야 문제 없음
잔차의 등분산성 : 오차 산점도 q-q plot 대각선모양인가?
잔차의 독립성 : durbin-watson 테스트. 값이 2에 가까울수록 문제 없음
잔차의 정규성 : shapiro.test p-값이 0.05보다 커야 문제 없음

{8. 로지스틱 회귀분석 : 종속변수가 범주형으로 이루어진 회귀분석}

이항 로지스틱 모형 : 종속변수 결과가 0/1인 경우
dummy variable 가변수: 질적 변수를 0/1로 코딩한 것
0/1을 선형으로 나타낼 수 없기 때문에 0과 1 사이의 확률로 표현함

0<확률<1
0<승산<무한대
-무한대<log(odds) < 무한대
=>log(odds) : 사건이 발생할 확률, 승산비의 로그값
Y값은 0~1사이이지만 가로축을 무한히 확장함으로써 곡선 형태의 회귀분석이 가능
독립변수가 한 단계 늘어날 때 종속변수의 변화량을 알 수 있음

유의미한지는 p-value값으로 파악
각 독립변수의 p-value값으로 각 변수의 유의미함 파악
"""독립변수 1 증가할 때 log odds가 회귀계수값, estimate값 만큼 증가"""
"""독립변수 1 증가할 때 종속 변수의 odd ratio가 exp(coef(log.reg1)) 값만큼 증가"""

pseudo-r square, 수도 회귀계수값을 쓴다.
독립변수가 1단위증가하면 log odds가 그만큼 증가한다.
log를 떼어내기 위해 exp를 붙여준다.
회귀계수가 양수이면 확률이 높아지는 것이고
회귀계수가 음수이면 확률이 낮아지는 것이다.
exp값이 1.015라면 1.5%증가하는 것이고
exp값이 0.09라면 90% 감소하는 것이다.

코와->코어

풀스택 웹개발자👩‍💻✨️

다음 포스트

R 프로그래밍 연구방법