빅데이터 분석기사 대비(2) - 빅데이터 모델링 - 분석기법 적용(1)

Dae Hee Lee·2021년 4월 4일
0

빅데이터분석기사

목록 보기
2/5

1. 분석기법

(1)회귀 분석

  • 변수들 사이의 인과관계를 밝히고 모형을 Fit하여 관심있는 변수를 예측하거나 추론하기 위한 분석 방법

영향을 주는 변수(x) : 독립변수,설명변수,예측변수
영향을 받는 변수(y) : 종속변수,반응변수,결과변수

데이터가 선형성, 독립성, 등분산성, 비상관성, 정상성 을 만족하여야한다.

  • 선형성 : 독립변수의 변화에 따라 종속변수도 일정 크기로 변화(선형적 관계)
  • 독립성 : 잔차와 독립변수의 값이 관련돼 있지 않음
  • 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정
  • 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
  • 정상성 : 잔차항이 정규 분포를 이뤄야 함
    (※ 잔차 : 회귀선과 표본 관측값의 차이)

회귀 모형 검증

  • 모형이 통계적으로 유의미한가?
    • F-통계량 확인
    • 유의 수준 0.05 미만, p-value가 0.05보다 작으면 추정된 회귀식이 통계적으로 유의미함
  • 회귀계수들이 유의미한가?
    • 해당 계수의 T-통계량과 p-value, 신뢰구간 확인
  • 모형이 얼마나 설명력을 갖는가?
  • 결정계수 확인, 높은 값일 수록 설명력이 높음
  • 모형이 데이터를 잘 적합하고 있는가?
    • 잔차를 그래프로 그리고 회귀진단 실시
  • 데이터가 가정을 만족시키는가?
    • 위에서 언급한 여러 가정들을 만족시키는지 확인

1. 단순선형 회귀 분석

  • 독립변수와 종속변수가 각각 한 개, 오차항이 있는 선형 관계
  • 최소제곱법을 활용하여 회귀계수 추정

    최소제곱법
    ▶︎ 오차(측정값과 실제값의 차) 제곱의 합이 최소가 되는 방식으로 결정
    (※ 오차 : 회귀선과 실제값의 차이)

  • 회귀계수가 0이면 인과관계가 없음
  • 결정계수(R2R^2) 는 전체 데이터를 회귀 모형이 얼마나 잘 설명하고 있는지를 보여줌
    회귀선의 정확도를 평가/ 전체 제곱합에서 회귀 제곱합의 비율
  • 전체 제곱합(SST,Total Sum of Squares) = SSR+SSE
  • 회귀 제곱합(SSR, Regression Sum of Squares)
  • 오차 제곱합(SSE, Error Sum of Squares)

결정계수 = SSR/SST

  • 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표

2.다중선형 회귀 분석(다변량 회귀)

  • 통계적 유의성은 F-통계량으로 확인

    n개의 표본과 k개의 변수가 있을 때 F-통계량

    • 회귀제곱평균(MSR)=SSR/k회귀 제곱평균(MSR) = SSR/k
    • 잔차제곱평균(MSE)=SSE/(nk1)잔차 제곱 평균(MSE) = SSE/(n-k-1)
    • 총제곱평균(MST)=SST/(n1)총 제곱 평균(MST) = SST/(n-1)

F-통계량 = MSR/MSE

(2)로지스틱 회귀 분석

(3)의사결정 나무

(4)인공신경망(ANN)

(5)SVM

(6)연관성 분석

(7)군집 분석

profile
Today is the day

0개의 댓글