Day45

김재현·2023년 7월 24일

JUPYTER/DL/ML

목록 보기
22/73

상관분석(인과관계가 아님)

예제) 자녀수와 야근율 : 상관관계가 높다(대출이자, 학비 등 복합적인 이유). 즉, 서로 상관은 있을 수 있다라고는 할 수 있지만 둘은 인과관계가 될 수 없다. 즉, '출산율 증진을 위해 야근을 도입해야한다' 같은 분석을 내서는 않된다.

03.연관성분석/03 여러변수의상관분석

산점도 그래프는 크기가 생각보다 큼+정사각형을 권장(모든 변수의 교차점과 히스토그램을 표현).
분석 결과가 유효한지 판단하기 위해 p-value 값을 확인한다.

03.연관성분석/04 스피어만 상관분석

피어슨 : 2개의 변수들의 숫자 값을 비교
스피어만 : 순위/서열 데이터를 나타내는 순서형 변수
결과 해석 방법은 동일
피어슨과는 다르게 스피어만은 카테고리 값 비교도 가능


회귀분석

  • 대표적인 상태(데이터)를 바탕으로 미래의 어떤 결과를 예측하는 분석
  • 회귀분석의 의미
    • 독립변수(x)들이 종속변수(y)에 미치는 영향을 추정할 수 있는 통계기법 y=ax+by=ax+b
    • 기울기 = 가중치, 절편 = 편향
  • 회귀분석 조건(오차 : 추세선의 좌표 값과 실제 데이터 값의 차이)
    • 선형성 : 입력변수와 출력변수의 관계가 성형
    • 등분산성 : 오차의 분산이 입력변수와 무관하게 일정
    • 정규성 : 오차의 분포가 정규분포를 따른다
    • 독립성 : 입력변수와 오차는 관련이 없음
  • 회귀분석 종류
    • 다중회귀 : 독립변수 k개, 종속변수와의 관계가 선형
    • 로지스틱 회귀 : 종속변수가 범주형(2진변수)

머신러닝 성능검증 : 결정계수(R2)(R^2). 0~1 값을 가지며 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.

E/04/02 단순선형회귀

  • 산점도 그래프의 신뢰도를 검증하기 위해 추론 통계를 진행
  • 상관분석을 통해 그래프(데이터)의 신뢰도를 검정
  • 상관분석 결과가 신뢰할 수 있을 경우 영향력을 판단하고 예측하기 위해 회귀분석을 진행(OLS)
  • 이후 OLS(계수)의 음/양을 통해 독립변수가 종속변수에 긍정/부정의 영향을 미치는지 확인
    • 계수(OLS)가 1 변할 때 나타나는 종속변수의 변화
  • 모델 적합성 : R-squared(결정계수)와 Adf. R-squared를 확인해 백분율(%)를 사용해 표현 (0~1사이 값)
    • 과적합
      • 모델 적합성이 지나치게 낮은 경우 : 과소적합
      • 모델 적합성이 지나치게 높은 경우 : 과대적합
  • DF Residuals, Df Model 즉, 요인을 사용해 F(x,y)F(x,y)를 표현하고 F-statistic을 사용해 yy 값을 확인, F-statistic의 p-value 값은 Prob(F-statistic)임을 인지
    종합적으로 회귀분석의 중심은 종속변수에 영향을 주는 요인이 무엇인지 알아내는 것

데이터 분석을 위해 coef와 p>|t|(회귀계수), R-squared(모형 적합도)를 집중해서 확인
모형 적합도 : 모형이 데이터에 잘 맞는 정도 -> 결론의 신빙성 정도
회귀계수 : 데이터로부터 얻은 계수의 추정치
위의 방법을 확인해 결과를 해석 - 결과 해석은 알아낸 사실
이후 결과 보고를 작성(모형 적합도, 독립변수에 대한 보고를 작성)

1개의 댓글

comment-user-thumbnail
2023년 7월 24일

유익한 글이었습니다.

답글 달기