chapter3 D-6 TIL

홍유택·2025년 1월 23일

데이터 분석의 흐름

데이터 분석단계

  • 문제정의
  • 가설설정
  • 데이터 수집 (SQL, 크롤링, 기타)
  • 가설증명
  • 해석

회귀분석 정의
회귀분석은 종속변수와 독립변수간의 관계를 모델링하고, 이를 통해 예측하거나 통찰을 얻는 통계적 기법이다.

종속변수 : 예측하고자하는 변수 Y값
독립변수 : 종속변수에 영향미치는 변수 X값

4.2 선형회귀만의 평가 지표 - R Square

숫자를 예측하는 회귀분석에서, 선형회귀에서만 평가되는 지표가 1개 더 있어요. 그건 바로 R Square 지표입니다. R Square는 전체 모형에서 회귀선으로 설명할 수 있는 정도를 뜻합니다.

어떤 값을 “예측”한다는건 어림짐작으로 평균값보단 예측을 잘해야한다는 것을 의미해요. 예컨대, 키의 평균 값이 176.9인데 이 값으로 모두 예측한 것보다는 잘해야겠죠?

6. 선형회귀 심화

6.1 다중선형회귀

단순선형회귀 vs 다항회귀

6.2 범주형 데이터 사용하기

☑️ 수치형 데이터 vs 범주형 데이터

  • 수치형 데이터
    1. 연속형 데이터: 두 개의 값이 무한한 개수로 나누어진 데이터

      ex) 키, 몸무게

    2. 이산형 데이터: 두 개의 값이 유한한 개수로 나누어진 데이터

      ex) 주사위 눈, 나이

  • 범주형 데이터
    1. 순서형 자료: 자료의 순서 의미가 있음

      ex) 학점,등급

    2. 명목형 자료: 자료의 순서 의미가 없음

      ex) 혈액형, 성별

☑️ 범주형 데이터 실습

📌 머신이는 데이터 선형회귀를 훈련 시켰지만 성능이 별로 좋지 않다는 것을 알게 되었습니다. 그래서 성별과 같은 다른 데이터를 사용하고 싶어졌습니다. 그런데 문제는 성별데이터는 문자형이여서 숫자로 표현할 방법이 필요해졌습니다.
  • 머신러닝 모델에 데이터를 훈련시킬려면 해당 데이터를 숫자로 바꿔야함
  • 성별, 날짜 와 같은 데이터를 범주형 데이터라고 부르며 이를 임의로 0,1 등에 숫자로 바꿀 수 있음. 이를 Encoding 과정이라 함

6.3 선형회귀 정리

☑️ 선형 회귀의 가정

머신러닝모델 중에 선형회귀는 이해하기 쉽고 방법도 쉬운 장점이 있지만 말 그대로 X-Y변수간의 선형적 관계가 좋아아만 좋은 성능을 냅니다. 선형회귀의 가정에 대해서 알아볼게요!

  1. 선형성 (Linearity): 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 함
  1. 등분산성 (Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 합니다. 즉, 오차가 특정 패턴을 보여서는 안 되며, 독립 변수의 값에 상관없이 일정해야 합니다.

  1. 정규성 (Normality): 오차 항은 정규 분포를 따라야 합니다.
profile
안녕하세요

0개의 댓글