(github.com/jaekim3220/jupyter 참고)
회귀분석은 독립변수끼리 상관성이 생기지 않아야함.
분산분석은 카테고리(category) 형식이 지원되지 않음
통계분석의 주요 검정 기법
| 기법 | 설명 |
|---|---|
| 독립표본 t검정 | 독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때) |
| 대응표본 t검정 | 쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때) |
| 분산분석 | 세 그룹의 평균 비교 (정규분포 가정이 가능할 때) |
| 상관분석 | 두 수치형 변수 사이의 상관관계 유무와 강도 계산 |
| 회귀분석 | 종속변수와 독립변수의 관계를 모델링 |
| 변수 | 의미 | 기타 | 비고 |
|---|---|---|---|
| 총생활비 | 한달에 지출되는 총 생활비 | 월 / 단위:만원 | 종속변수 |
| 이자배당금연간소득 | 은행이자나 주식 배당금으로 얻는 연간 수입 | 년간 / 단위:만원 | 불로소득 |
| 임대료_연간소득 | 전세보증금,월세등 | 년간 / 단위:만원 | 불로소 득 |
| 기타_소득 | 상여금, 장려금, 보상금 등 | 년간 / 단위:만원 | 불로소득 |
| 부모가보낸생활비 | 부모로부터 받은 보조금(생활비개념) | 년간 / 단위:만원 | 불로소득 |
| 자녀가보낸생활비 | 자녀로부터 받은 보조금(생활비개념) | 년간 / 단위:만원 | 불로소득 |
| 민간보조금 | 민간 개인 또는 단체로부터 받은 보조금(생활비개념) | 년간/ 단위:만원 | 불로소득 |
| 세금환급금 | 납세자가 내야할 세액보다 더 많이 내서 나오는 환급금 | 년간 / 단위:만원 | 불로소득 |
| 기초연금 | 저소득층 노인에게 지급하는 연금 | 년간 / 단위:만원 | 불로소득 |
| 공적연금 | 국민연금, 공무원연금, 군인연금, 사립학교교직원연금을 의미 | 년간 / 단위:만원 | 불로소득 |
| 재난지원금 | 코로나19에 따른 국민생계 안정을 위해 지원하는 금액 | 년간 / 단위:만원 | 불로소득 |
| 금융기관대출 | 금융권에서 받은 대출액 | 단위:만원 | 부채 |
| 주택관련_부채액 | 주택 구매,임대 관련하여 발생한 부채액(대출액) | 단위:만원 | 부채 |
| 주거관련부채의이자 | 주택관련 부채액의 이자 | 년간 / 단위:만원 | 부채 |
| 기타_이자 | 일반 대출이나 기타 사항에 의해 발생한 이자 | 년간 / 단위:만원 | 부채 |
p-value의 기준
P-value < 0.01: 귀무가설이 옳을 확률이0.01이하 → 틀렸다(깐깐한 기준) -->귀무가설 기각, 대립가설 채택P-value < 0.05: 귀무가설이 옳을 확률이0.05이하 → 틀렸다(일반적인 기준) -->귀무가설 기각, 대립가설 채택0.05 < P-value < 0.1: 애매한 경우(샘플링을 다시한다)0.1 < P-value: 귀무가설이 옳을 확률이 0.1 이상 →귀무가설 기각 불가, 틀리지 않았다(맞다와 다름)
한국복지패널조사2022년_17차가구용 데이터를 사용한 프로젝트
사용할 데이터에 category 형식이 있는지 확인.
D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
D. 탐색적 데이터 분석(EDA)/03. 데이터 정제/02-결측치_정제.ipynb
결측치가 있다면 결측치를 정제.
기초통계량을 확인해 데이터의 정보를 확인
D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
D. 탐색적 데이터 분석(EDA)/03. 데이터 정제/03-이상치_정제_2.ipynb
regplot, boxplot을 사용해 각 변수의 데이터 분포를 확인, 이상치 정제 구간을 결정한다.
이상치를 정제한 이후 다시 그래프로 시각화를 진행, 차이를 검수한다.
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/03-신뢰구간.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/연습문제/연습문제_풀이.ipynb
신뢰구간은 가설검정 과정에서 진행되는데 이때 데이터의 평균 값을 추출하는 단계이므로 표준화-정규화(scaling)을 진행하#지 않는다.
D. 탐색적 데이터 분석(EDA)/01. 데이터 시각화/08-seaborn빈도그래프2.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/03-여러변수의상관분석.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만상관분석.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/08-정규분포_가정.ipynb
탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사해 데이터의 변수가 정규성을 충족하는지 확인.
E. 확증적 데이터 분석(CDA)\04. 선형회귀분석\08-정규분포_가정.ipynb
| 왜도 | 구분 | 내용 |
|---|---|---|
| 정규분포 | ||
| 왼쪽으로 치우침 | ||
| 오른쪽으로 치우침 |
| 첨도 | 구분 | 내용 |
|---|---|---|
| 정규분포 | ||
| 위로 뾰족함 | ||
| 아래로 뾰족함 |
스피어만 상관분석을 사용한 히트맵 제시를 통해 변수별 상관성 확인
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/03-여러변수의상관분석.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만_상관분석.ipynb
E. 확증적 데이터 분석(CDA/04. 선형회귀분석/06-주성분분석(PCA).ipynb
D. 탐색적 데이터 분석(EDA)/05. 데이터정규화/01-데이터정규화.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/03-신뢰구간.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/연습문제/연습문제풀이.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/연습문제/연습문제2_풀이(스케일링예제).ipynb
E. 확증적 데이터 분석(CDA)\04. 선형회귀분석/연습문제/연습문제2-2-추가내용.ipynb
표준화-정규화(scaling)각 특성들의 단위를 무시하고 값으로 단순 비교할 수 있게 변경.
표준화(정규화)를 통해 서로 다른 단위나 범위를 가진
데이터를 동일한 기준으로 맞춤으로써, 데이터 분석이나 머신러닝모델의 성능을 향상.
더미변수
명목형 변수를 연속형 변수스럽게 변경한 것.
카테고리 형태의 데이터를0,1,2등의연속형 숫자로 변환한 형태
ex) 남자, 여자 --> 0, 1
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/09-선형회귀예시(1).ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/10-선형회귀예시(2).ipynb
D. 탐색적 데이터 분석(EDA)/02. 기술통계/1-기초통계량.ipynb
D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/07-잔차분석.ipynb
E. 확증적 데이터 분석(CDA)/06. 시계열 분석/07-비트코인가격분석.ipynb
E. 확증적 데이터 분석(CDA)\04. 선형회귀분석\09-선형회귀예시(1).ipynb
결과값을 토대로 잔차가 정규성을 따르는지 Q-Q plot을 통해 확인.
(github.com/jaekim3220/jupyter 참고)
종속변수
총생활비
독립변수
'이자배당금연간소득','임대료연간소득','기타소득','세금환급금'
'금융기관대출', '주거관련부채의이자','주택관련부채액','공적연금연간소득'
불로소득에 포함되는 변수
이자배당금연간소득, 임대료연간소득, 공적연금연간소득, 세금환급금
이상치는 그래프를 사용해 확인 후 처리 범위를 결정
D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
히스토그램을 사용한 이상치 확인
귀무가설: 총생활비와 y값의 상관이 없다.
대립가설: 총생활비는 y값과 상관이 있다.
D. 탐색적 데이터 분석(EDA)/02. 기술통계
/1-기초통계량.ipynb
describe 표를 통한 전체적인 데이터의 수치 분석 - 이상치 확인
이후 이상치를 더 정확히 판단하기 위해 반복문과 서브플롯을 사용해 regplot 그래프를 생성
boxplot을 통해 이상치를 제거할 범위를 결정
x값으로 넣을 종속변수(총생활비)에서 1건만 비정상으로 높은 수치 확인되어 제거 후 진행
y값으로 넣을 독립변수들 중 이상치가 각 컬럼에서 발견되어 프로젝트 참가자들 주관적 판단하에 제거 범위를 결정
이자배당금연간소득 상위이상치 2건, 임대료연간소득 상위이상치 4건,기타소득 상위이상치 4건
주택관련부채액 상위이상치 3건, 공적연금연간소득 상위이상치 7건
세금환급금 상위이상치 8건, 금융기관대출 상위이상치 2건, 주거관련부채의이자 상위이상치 4건
종속변수와 독립변수를 포함해서 총 35건의 데이터를 제거
E. 확증적 데이터 분석(CDA)/03. 연관성 분석 /03-여러변수의상관분석.ipynb
pvalue를 확인해 독립변수와 종속변수의 상관성을 확인
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만_상관분석.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/07-One-way-ANOVA_2.ipynb
비모수적인 방법 사용, 로버스트(robust) 통계 기법 사용, 대규모 데이터셋 사용, 통계 기법과 목적에 따른 유연성(회귀분석의 예측 모델링이 목적)
정규성, 등분산성, 독립성 확인을 제외하는 만큼 정규분포 확인이 필요한가?
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/08-정규분포_가정.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/03-신뢰구간.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/연습문제/연습문제_풀이.ipynb
신뢰구간은 가설검정 과정에서 진행되는데 이때 데이터의 평균 값을 추출하는 단계이므로 표준화-정규화(scaling)을 진행하지 않는다.
표준화각 특성들의 단위를 무시하고 값으로 단순 비교할 수 있게 변경.
표준화(정규화)를 통해 서로 다른 단위나 범위를 가진
데이터를 동일한 기준으로 맞춤으로써, 데이터 분석이나 머신러닝모델의 성능을 향상.
더미변수
명목형 변수를 연속형 변수스럽게 변경한 것.
카테고리 형태의 데이터를0,1,2등의연속형 숫자로 변환한 형태
ex) 남자, 여자 --> 0, 1
D. 탐색적 데이터 분석(EDA/05. 데이터_정규화/01-데이터정규화.ipynb
E. 확증적 데이터 분석(CDA/05. 로지스틱 회귀/04-로지스틱회귀+더미변수.ipynb
스피어만 상관분석을 사용한 히트맵 제시를 통해 변수별 상관성 확인
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/03-여러변수의상관분석.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만_상관분석.ipynb
어떤 결론을 내는데 가장 크게 영향을 주는 변수를 찾아내는 과정E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/02-단순선형회귀-강사님.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/03-회귀분석의결과보고.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/04-회귀분석의결과보고모듈활용.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/05-다중선형회귀강사님추가.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/08-정규분포_가정.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/07-잔차분석.ipynb
그래프가 너무 복잡한 경우 잔차(실제 값-예측 값)을 사용
E. 확증적 데이터 분석(CDA)/06. 시계열 분석/07-비트코인_가격분석.ipynb
E. 확증적 데이터 분석(CDA/04. 선형회귀분석/06-주성분분석(PCA).ipynb
edf에서 수치형 변수만 추출하여 처리한다.E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/03,04,05,06, - 정확도 예측(predict 또는 회귀분석 결과에 내장된 예측값 ols_result.fit.fittedvalues 사용해 예측모델 제시, 정확도 판단)