머신러닝 특강 02 - 회귀

Data_Student·2024년 11월 28일
0

머신러닝

목록 보기
9/10

머신러닝 특강 - 회귀


1. 회귀란?

  • 기본 개념

    • 데이터를 기반으로 연속적인 값을 예측하는 머신러닝 기법
  • 분류와의 차이점 : 분류는 범주 예측, 회귀는 수치 예측

  • 회귀 vs 분류 비교
    1) 날씨 예측

    • 회귀 : 내일의 정확한 기온 예측
    • 분류 : 내일 날씨가 맑음, 흐림, 비 중 어떤 상태 예측

    2) 주식 시장

    • 회귀 : 특정 회사의 주식 가격이 다음 날 몇 원이 될지 예측
    • 분류 : 특정 주식이 오를지, 내릴지(상승/하락) 예측

    3) 부동산

    • 회귀 : 특정 아파트의 매매가
    • 분류 : 특정 아파트의 등급 분류

    4) 의료 데이터

    • 회귀 : 환자의 체질량지수를 기준으로 예상 혈압 수치 예측
    • 분류 : 환자가 고혈압인지 정상인지 분류

    5) 교육

    • 회귀 : 학생의 학습 시간에 따른 예상 점수를 예측
    • 분류 : 시험의 합격 또는 불합격 예측

    6) 고객 데이터

    • 회귀 : 고객이 다음 달에 소비할 예상 금액 예측
    • 분류 : 고객이 다음 달에 구매 또는 미구매를 예측
  • 수학적 배경

    • 입력 X와 출력 Y 사이의 관계

2. 선형 회귀 모델의 기본 원리

  • 선형 회귀

    • 독립 변수(입력) X와 종속 변수(출력) Y 사이의 선형 관계를 학습하는 모델
    • 직선 방정식 : Y = WX+b ( 실제로는 오차가 있을 수 있기에 오차를 어느정도 고려)
  • 다중회귀

    • 독립 변수가 여러개인 경우 사용
    • 시각화는 3D 이상 (평면 또는 초평면)
  • 모델 학습 과정

    • 손실 함수(오차) : 평균 제곱 오차(MSE)

    • 최적화 : 수학적인 방법 or 경사하강법(Gradient Descent) 사용

    • 수학적으로 풀기

      • 오차를 최소화하는 계수를 찾는 방법인 최소자승법(Ordinary Least Squares)을 사용
    • 경사하강법

      • 경험적으로 오차를 최소화하는 계수를 찾아냄
      • sklearn의 SGDRegressor을 사용하면 가능

3. 코드로 배우는 선형 회귀

  • 간단한 실습
    • 단계별 설명
      • 데이터 로드 및 시각화
      • 선형 회귀 모델 학습(sklearn 사용)
      • 결과 해석: 학습된 직선과 데이터 비교, R2 점수 등 성능 평가

4. 회귀 모델의 확장 및 한계

  • 선형회귀의 한계

    • 비선형 데이터에는 적합하지 않음
    • 과적합의 위험을 항상 조심해야함
      • train 데이터에서만 결과가 좋고 test 데이터에는 결과가 안 좋은 경우, 즉 일반화가 안된경우
  • 다양한 회귀 모델

    • 다항 회귀 (Polynomial Regression)
      • 비선형 데이터를 설명할 때 사용
    • 과적합 방지용 규제를 사용하는 회귀
      • 릿지(Ridge) L1 규제
      • 라쏘(Lasso) L2 규제
      • 엘라스틱넷(Elasticnet)
  • 그 외 심화 학습 내용 ( 참고하기 ! )

0개의 댓글