Day61~65

김재현·2023년 8월 16일

JUPYTER/DL/ML

목록 보기
38/73

Semiproject_main

(github.com/jaekim3220/jupyter 참고)

회귀분석은 독립변수끼리 상관성이 생기지 않아야함.

분산분석은 카테고리(category) 형식이 지원되지 않음

통계분석의 주요 검정 기법

기법설명
독립표본 t검정독립된 두 그룹의 평균비교(정규분포 가정이 가능할 때)
대응표본 t검정쌍을 이룬 두 그룹의 평균비교(정규분포 가정이 가능할 때)
분산분석세 그룹의 평균 비교 (정규분포 가정이 가능할 때)
상관분석두 수치형 변수 사이의 상관관계 유무와 강도 계산
회귀분석종속변수와 독립변수의 관계를 모델링

변수의미기타비고
총생활비한달에 지출되는 총 생활비월 / 단위:만원종속변수
이자배당금연간소득은행이자나 주식 배당금으로 얻는 연간 수입년간 / 단위:만원불로소득
임대료_연간소득전세보증금,월세등년간 / 단위:만원불로소 득
기타_소득상여금, 장려금, 보상금 등년간 / 단위:만원불로소득
부모가보낸생활비부모로부터 받은 보조금(생활비개념)년간 / 단위:만원불로소득
자녀가보낸생활비자녀로부터 받은 보조금(생활비개념)년간 / 단위:만원불로소득
민간보조금민간 개인 또는 단체로부터 받은 보조금(생활비개념)년간/ 단위:만원불로소득
세금환급금납세자가 내야할 세액보다 더 많이 내서 나오는 환급금년간 / 단위:만원불로소득
기초연금저소득층 노인에게 지급하는 연금년간 / 단위:만원불로소득
공적연금국민연금, 공무원연금, 군인연금, 사립학교교직원연금을 의미년간 / 단위:만원불로소득
재난지원금코로나19에 따른 국민생계 안정을 위해 지원하는 금액년간 / 단위:만원불로소득
금융기관대출금융권에서 받은 대출액단위:만원부채
주택관련_부채액주택 구매,임대 관련하여 발생한 부채액(대출액)단위:만원부채
주거관련부채의이자주택관련 부채액의 이자년간 / 단위:만원부채
기타_이자일반 대출이나 기타 사항에 의해 발생한 이자년간 / 단위:만원부채

pvalue

p-value의 기준

  • P-value < 0.01 : 귀무가설이 옳을 확률이 0.01 이하 → 틀렸다(깐깐한 기준) --> 귀무가설 기각, 대립가설 채택
  • P-value < 0.05 : 귀무가설이 옳을 확률이 0.05 이하 → 틀렸다(일반적인 기준) --> 귀무가설 기각, 대립가설 채택
  • 0.05 < P-value < 0.1 : 애매한 경우(샘플링을 다시한다)
  • 0.1 < P-value : 귀무가설이 옳을 확률이 0.1 이상 → 귀무가설 기각 불가, 틀리지 않았다(맞다와 다름)

한국복지패널조사2022년_17차가구용 데이터를 사용한 프로젝트

데이터 준비

데이터형식 확인

사용할 데이터에 category 형식이 있는지 확인.

결측치 정제

D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
D. 탐색적 데이터 분석(EDA)/03. 데이터 정제/02-결측치_정제.ipynb

결측치가 있다면 결측치를 정제.

데이터의 기초통계량 확인

기초통계량을 확인해 데이터의 정보를 확인

이상치 정제

D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
D. 탐색적 데이터 분석(EDA)/03. 데이터 정제/03-이상치_정제_2.ipynb

regplot, boxplot을 사용해 각 변수의 데이터 분포를 확인, 이상치 정제 구간을 결정한다.
이상치를 정제한 이후 다시 그래프로 시각화를 진행, 차이를 검수한다.

#신뢰구간

E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/03-신뢰구간.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/연습문제/연습문제_풀이.ipynb

신뢰구간은 가설검정 과정에서 진행되는데 이때 데이터의 평균 값을 추출하는 단계이므로 표준화-정규화(scaling)을 진행하#지 않는다.

산점도 행렬 그래프

D. 탐색적 데이터 분석(EDA)/01. 데이터 시각화/08-seaborn빈도그래프2.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/03-여러
변수의상관분석.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만
상관분석.ipynb

정규분포 가정 구하기(정규성 검사)

E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/08-정규분포_가정.ipynb
탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사해 데이터의 변수가 정규성을 충족하는지 확인.

왜도와 첨도

E. 확증적 데이터 분석(CDA)\04. 선형회귀분석\08-정규분포_가정.ipynb

왜도구분내용
정규분포왜도=0왜도=0
왼쪽으로 치우침왜도>0왜도 > 0
오른쪽으로 치우침왜도<0왜도 < 0
첨도구분내용
정규분포첨도=0첨도 = 0
위로 뾰족함첨도>0첨도 > 0
아래로 뾰족함첨도<0첨도 < 0

히트맵을 사용한 상관분석

스피어만 상관분석을 사용한 히트맵 제시를 통해 변수별 상관성 확인
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/03-여러변수의상관분석.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만_상관분석.ipynb

(주성분분석)PCA분석 및 잔차분석

E. 확증적 데이터 분석(CDA/04. 선형회귀분석/06-주성분분석(PCA).ipynb

  • 데이터의 가장 큰 분산을 가진 방향으로 차원을 축소하여 데이터를 표현해 데이터를 가장 잘 설명하는 주요 특성을 탐색 가능.
  • 범주형은 PCA를 수행할 수 없기 때문에 수치형 변수만 추출하여 처리한다.

데이터 정규화-표준화(scaling)

D. 탐색적 데이터 분석(EDA)/05. 데이터정규화/01-데이터정규화.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/03-신뢰구간.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/연습문제/연습문제
풀이.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/연습문제/연습문제2_풀이(스케일링예제).ipynb
E. 확증적 데이터 분석(CDA)\04. 선형회귀분석/연습문제/연습문제2-2-추가내용.ipynb

  • 표준화-정규화(scaling)

각 특성들의 단위를 무시하고 값으로 단순 비교할 수 있게 변경.

표준화(정규화)를 통해 서로 다른 단위나 범위를 가진 데이터를 동일한 기준으로 맞춤으로써, 데이터 분석이나 머신러닝 모델의 성능을 향상.

  • 더미변수

명목형 변수를 연속형 변수스럽게 변경한 것.

카테고리 형태의 데이터0,1,2등의 연속형 숫자로 변환한 형태
ex) 남자, 여자 --> 0, 1

다중선형회귀분석(Multiple Linear Regression) 실행

E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/09-선형회귀예시(1).ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/10-선형회귀
예시(2).ipynb

잔차의 정규성 검사(Q-Q Plot)-사분위수

D. 탐색적 데이터 분석(EDA)/02. 기술통계/1-기초통계량.ipynb
D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/07-잔차분석.ipynb
E. 확증적 데이터 분석(CDA)/06. 시계열 분석/07-비트코인가격분석.ipynb
E. 확증적 데이터 분석(CDA)\04. 선형회귀분석\09-선형회귀
예시(1).ipynb
결과값을 토대로 잔차가 정규성을 따르는지 Q-Q plot을 통해 확인.


Semiproject_sub

(github.com/jaekim3220/jupyter 참고)

이상치/결측치 확인 및 처리

  • 종속변수

    총생활비

  • 독립변수

    '이자배당금연간소득','임대료연간소득','기타소득','세금환급금'

    '금융기관대출', '주거관련부채의이자','주택관련부채액','공적연금연간소득'

  • 불로소득에 포함되는 변수

    이자배당금연간소득, 임대료연간소득, 공적연금연간소득, 세금환급금

결측치, 이상치 확인

이상치는 그래프를 사용해 확인 후 처리 범위를 결정

결측치/이상치 확인

D. 탐색적 데이터 분석(EDA)/02. 기술통계/2-데이터분포.ipynb
히스토그램을 사용한 이상치 확인

종속/독립변수 상관관계 및 이상치 확인

귀무가설: 총생활비와 y값의 상관이 없다.
대립가설: 총생활비는 y값과 상관이 있다.

각 컬럼 별 이상치 찾기(1)

D. 탐색적 데이터 분석(EDA)/02. 기술통계
/1-기초통계량.ipynb
describe 표를 통한 전체적인 데이터의 수치 분석 - 이상치 확인
이후 이상치를 더 정확히 판단하기 위해 반복문과 서브플롯을 사용해 regplot 그래프를 생성

각 컬럼 별 이상치 찾기(2)

boxplot을 통해 이상치를 제거할 범위를 결정

regplot, boxplot 조회 결과

  • x값으로 넣을 종속변수(총생활비)에서 1건만 비정상으로 높은 수치 확인되어 제거 후 진행

  • y값으로 넣을 독립변수들 중 이상치가 각 컬럼에서 발견되어 프로젝트 참가자들 주관적 판단하에 제거 범위를 결정

  • 이자배당금연간소득 상위이상치 2건, 임대료연간소득 상위이상치 4건,기타소득 상위이상치 4건

  • 주택관련부채액 상위이상치 3건, 공적연금연간소득 상위이상치 7건

  • 세금환급금 상위이상치 8건, 금융기관대출 상위이상치 2건, 주거관련부채의이자 상위이상치 4건

  • 종속변수와 독립변수를 포함해서 총 35건의 데이터를 제거

이상치 데이터 제거후 regplot으로 그래프 재확인하기

반복문을 사용한 피어슨 상관분석 진행

E. 확증적 데이터 분석(CDA)/03. 연관성 분석 /03-여러변수의상관분석.ipynb

pvalue를 확인해 독립변수와 종속변수의 상관성을 확인

스피어만 상관분석

E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만_상관분석.ipynb

데이터 전처리

정규성, 등분산성, 독립성 확인

E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/07-One-way-ANOVA_2.ipynb

  • 정규성이 만족되지 않을 경우에는 비모수적인 방법이나 데이터 변환 등을 고려
  • 등분산성이 만족되지 않을 경우에는 잘못된 결과를 초래. 등분산성이 만족되지 않으면 보다 안정적인 추정 결과를 얻기 위해 가중치를 적용하거나 다른 방법을 고려.
  • 독립성이 깨질 경우에는 시계열 데이터에서 발생하는 자기상관성 등을 고려

정규성, 등분산성, 독립성 확인 제외

비모수적인 방법 사용, 로버스트(robust) 통계 기법 사용, 대규모 데이터셋 사용, 통계 기법과 목적에 따른 유연성(회귀분석의 예측 모델링이 목적)

  • 대규모 데이터셋을 사용하기 때문에 정규성, 등분산성, 독립성 확인은 제외하기로 결정

정규분포 가정 확인 여부

정규성, 등분산성, 독립성 확인을 제외하는 만큼 정규분포 확인이 필요한가?
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/08-정규분포_가정.ipynb

가설검정 - 신뢰구간

E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/03-신뢰구간.ipynb
E. 확증적 데이터 분석(CDA)/02. 두 변수간의 차이 분석/연습문제/연습문제_풀이.ipynb
신뢰구간은 가설검정 과정에서 진행되는데 이때 데이터의 평균 값을 추출하는 단계이므로 표준화-정규화(scaling)을 진행하지 않는다.

표준화-정규화(scaling)

  • 표준화

각 특성들의 단위를 무시하고 값으로 단순 비교할 수 있게 변경.

표준화(정규화)를 통해 서로 다른 단위나 범위를 가진 데이터를 동일한 기준으로 맞춤으로써, 데이터 분석이나 머신러닝 모델의 성능을 향상.

  • 더미변수

명목형 변수를 연속형 변수스럽게 변경한 것.

카테고리 형태의 데이터0,1,2등의 연속형 숫자로 변환한 형태
ex) 남자, 여자 --> 0, 1

D. 탐색적 데이터 분석(EDA/05. 데이터_정규화/01-데이터정규화.ipynb
E. 확증적 데이터 분석(CDA/05. 로지스틱 회귀/04-로지스틱회귀+더미변수.ipynb

  • 현재 사용중인 데이터에는 명목형(범주형)변수를 제외한 경우인 만큼 더미변수화 시킬 필요가 없다고 판단, 스케일링만 진행
  • 다만, 시간이 허락한다면 다양한 데이터 전처리 학습을 위해 더미변수 처리 없이 표준화 적용/더미변수 처리 후 표준화 적용하지 않은 결과/더미변수 처리 후 표준화를 적용한 상태로 결과를 시도해 볼 것

상관분석

스피어만 상관분석을 사용한 히트맵 제시를 통해 변수별 상관성 확인
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/03-여러변수의상관분석.ipynb
E. 확증적 데이터 분석(CDA)/03. 연관성 분석/04-스피어만_상관분석.ipynb

회귀분석

  • 선형회귀분석
    어떤 결론을 내는데 가장 크게 영향을 주는 변수를 찾아내는 과정

E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/02-단순선형회귀-강사님.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/03-회귀분석의결과보고.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/04-회귀분석의
결과보고모듈활용.ipynb
E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/05-다중선형회귀
강사님추가.ipynb

정규성확인(분석진행 전)

  • 탐색적 데이터 분석 과정에서 모든 독립변수에 대해 왜도와 첨도를 검사해 데이터의 변수가 정규성을 충족하는지 확인.

E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/08-정규분포_가정.ipynb

잔차분석

  • 회귀분석 수행 후 회귀 분석이 적절하게 수행되었는지, 모델이 데이터에 적합한지를 평가하기 위해 사용
  • Durbuin-Watson 값으로 독립성 확인(1.5 ~ 2.5 사이)
  • 잔차의 선형성, 정규성, 등분산성, 독립성

E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/07-잔차분석.ipynb
그래프가 너무 복잡한 경우 잔차(실제 값-예측 값)을 사용
E. 확증적 데이터 분석(CDA)/06. 시계열 분석/07-비트코인_가격분석.ipynb

주성분분석-PCA 분석

E. 확증적 데이터 분석(CDA/04. 선형회귀분석/06-주성분분석(PCA).ipynb

  • 데이터의 가장 큰 분산을 가진 방향으로 차원을 축소하여 데이터를 표현해 데이터를 가장 잘 설명하는 주요 특성을 탐색 가능.
  • 범주형은 PCA를 수행할 수 없기 때문에 edf에서 수치형 변수만 추출하여 처리한다.

결과보고

E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/03,04,05,06, - 정확도 예측(predict 또는 회귀분석 결과에 내장된 예측값 ols_result.fit.fittedvalues 사용해 예측모델 제시, 정확도 판단)

  • 모델 정확도
    E. 확증적 데이터 분석(CDA)/04. 선형회귀분석/05-다중선형회귀_강사님추가.ipynb

0개의 댓글