[Excel마스터] 회귀분석과 군집분석(k-means클러스터링) 이론

Hyejin Beck·2023년 12월 25일
0

Excel & Sheet

목록 보기
10/22

회귀분석

상관관계와 인과관계

상관관계를 확인 :

상관분석
A가 증가할때, B도 일관되게 증가/감소하는 경우

y가 증가할때, x는 감소하는가?
아니면 y가 증가하는것과 x가 증가하는것은 서로 상관이 없는가? 등등 

인과관계를 확인 :

회귀분석
A와 B가 원인과 결과 관계로서, 함께 변화하는 경우

  • 시간적 우선성 : 원인변수는 결과변수보다 먼저 발생한다.
  • 공변성 : 원인이 변화하면, 결과 현상도 변화한다
  • 외생변수 통제 : 제 3의 변수 X
x가 y의 증가/감소에 얼만큼 영향을 미치는가? 
y를 증가시키기 위해 x값 중에 어떤 값이 영향이 큰가? 등등 

성능평가

  • 잔차 : 계산한 회귀 방정식과 실제 값들의 차이
    (모형으로는 설명되지 않는 부분)
  • 평균절대오차(MAE) : 잔차 절대값의 합의 평균
    ( 쉽게 말해, 얼만큼 오차가 나는지 확인)
  • 제곱근평균제곱오차 (RMSE) : 잔차 제곱근 평균의 제곱근
  • 결정계수와 조정된 결정계수 (R Squared and Adujusted R Squared) : 모형으로 설명되는 부분의 비중 (설명력)

결정계수(설명력)은 클 수록 좋다. 최대치 max가 1입니다.
나머지 MAE, RMSE(구한 공식의 오차)는 작을 수록 좋다.

군집분석(군집화-클러스터링)

데이터의 특징(Feature)만으로, 서로 동일하거나 유사한 특징을 가진 데이터들끼리 그룹화 함으로서 데이터의 레이블(그룹번호)를 부여하는 기법입니다.

세분화와 군집화(Segmentation <> Clustering)


profile
데이터기반 스토리텔링을 통해 인사이트를 얻습니다.

0개의 댓글

관련 채용 정보