[TIL]데이터 분석 부트캠프(4기) 36일차

Data_Student·2024년 11월 27일
0

TIL

목록 보기
36/54

[TIL]데이터 분석 부트캠프(4기) 36일차


0. 들어가며

  • 조기 퇴근을 위한 조기 출석..!
  • 오전에는 상쾌한 기분이 들어서 좋았지만 평소 수면 시간보다 부족하여 오후에는 쉽게 졸리다.
  • 생활패턴을 조기 기상 및 조기 출석이 반복된다면 더 많은 시간을 활용할 수 있을 것 같다.

1. 오전 일과

1-1 코드 카타 및 내용 정리

내용 정리 코드
1. https://velog.io/@dav74/%EC%BD%94%EB%93%9C%EC%B9%B4%ED%83%80-SQL-50-Last-Person-to-Fit-in-the-Bus
2. https://velog.io/@dav74/%EC%BD%94%EB%93%9C%EC%B9%B4%ED%83%80-SQL-51-Count-Salary-Categories
3. https://velog.io/@dav74/%EC%BD%94%EB%93%9C%EC%B9%B4%ED%83%80-SQL-52-Employees-Whose-Manager-Left-the-Company

  • 코드카타 문제 3문제 풀이 완료
    • SUM() over()을 통한 누적 합계 구하기
    • union을 통한 더미 데이터 생성!
    • 문제 상 less than 은 미만을 의미한다..!

2-2 아티클 스터디

내용 정리 링크
https://velog.io/@dav74/%EC%95%84%ED%8B%B0%ED%81%B4-%EC%8A%A4%ED%84%B0%EB%94%94-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EA%B8%B0%EC%B4%88-%EC%A7%80%EC%8B%9D-%ED%86%BA%EC%95%84%EB%B3%B4%EA%B8%B0

  • 아티클 스터디 간단 내용 정리
    • 지금까지 배웠던 머신러닝에 대해 다시 복습하고 정리한 느낌
    • 머신러닝은 인공 지능의 방법론 중 하나로 현재 다양하게 활용되고 있으며,
      지금 데이터 분석가에게 Python과 머신러닝은 필수는 아니지만 성장하고 싶고,
      앞으로 미래를 위한다면 필수적으로 머신러닝을 활용할 수 있어야 한다고 생각한다.

2-3 머신러닝 코드 복습 - 학생 성적 (로지스틱 회귀)

내용 정리 링크로 추가 예정


2. 오후 일과

2-1 머신러닝 코드 복습 - 캘리포니아 집값 예측 (선형 회귀), Iris (군집)

내용 정리 링크로 추가 예정

2-2 머신러닝 특강 - 회귀 분석

  1. 회귀란?
  • 기본 개념

    • 데이터를 기반으로 연속적인 값을 예측하는 머신러닝 기법
  • 분류와의 차이점 : 분류는 범주 예측, 회귀는 수치 예측

  • 회귀 vs 분류 비교
    1) 날씨 예측

    • 회귀 : 내일의 정확한 기온 예측
    • 분류 : 내일 날씨가 맑음, 흐림, 비 중 어떤 상태 예측

    2) 주식 시장

    • 회귀 : 특정 회사의 주식 가격이 다음 날 몇 원이 될지 예측
    • 분류 : 특정 주식이 오를지, 내릴지(상승/하락) 예측

    3) 부동산

    • 회귀 : 특정 아파트의 매매가
    • 분류 : 특정 아파트의 등급 분류

    4) 의료 데이터

    • 회귀 : 환자의 체질량지수를 기준으로 예상 혈압 수치 예측
    • 분류 : 환자가 고혈압인지 정상인지 분류

    5) 교육

    • 회귀 : 학생의 학습 시간에 따른 예상 점수를 예측
    • 분류 : 시험의 합격 또는 불합격 예측

    6) 고객 데이터

    • 회귀 : 고객이 다음 달에 소비할 예상 금액 예측
    • 분류 : 고객이 다음 달에 구매 또는 미구매를 예측
  • 수학적 배경

    • 입력 X와 출력 Y 사이의 관계
  1. 선형 회귀 모델의 기본 원리
  • 선형 회귀

    • 독립 변수(입력) X와 종속 변수(출력) Y 사이의 선형 관계를 학습하는 모델
    • 직선 방정식 : Y = WX+b ( 실제로는 오차가 있을 수 있기에 오차를 어느정도 고려)
  • 다중회귀

    • 독립 변수가 여러개인 경우 사용
    • 시각화는 3D 이상 (평면 또는 초평면)
  • 모델 학습 과정

    • 손실 함수(오차) : 평균 제곱 오차(MSE)

    • 최적화 : 수학적인 방법 or 경사하강법(Gradient Descent) 사용

    • 수학적으로 풀기

      • 오차를 최소화하는 계수를 찾는 방법인 최소자승법(Ordinary Least Squares)을 사용
    • 경사하강법

      • 경험적으로 오차를 최소화하는 계수를 찾아냄
      • sklearn의 SGDRegressor을 사용하면 가능
  1. 코드로 배우는 선형 회귀
  • 간단한 실습
    • 단계별 설명
      • 데이터 로드 및 시각화
      • 선형 회귀 모델 학습(sklearn 사용)
      • 결과 해석: 학습된 직선과 데이터 비교, R2 점수 등 성능 평가
  1. 회귀 모델의 확장 및 한계
  • 선형회귀의 한계

    • 비선형 데이터에는 적합하지 않음
    • 과적합의 위험을 항상 조심해야함
      • train 데이터에서만 결과가 좋고 test 데이터에는 결과가 안 좋은 경우, 즉 일반화가 안된경우
  • 다양한 회귀 모델

    • 다항 회귀 (Polynomial Regression)

      • 비선형 데이터를 설명할 때 사용
    • 과적합 방지용 규제를 사용하는 회귀

      • 릿지(Ridge) L1 규제
      • 라쏘(Lasso) L2 규제
      • 엘라스틱넷(Elasticnet)
    • 그 외 심화 학습 내용 ( 참고하기 ! )


3. 마치며

  • 공부 마감이 일찍 끝나니 또 다른 기분이다.
  • 가끔은 조금 이른 출석에 조금 이른 마감도 나쁘지 않을 것 같다.
    ( 프로젝트 기간 제외 / 그리고 정말 가끔만.. )
  • 머신러닝 코드 복습은 실제 어떻게 활용되는지 눈과 손으로 익숙해지는 것이 중요한 것 같다.
  • 그리고 조건을 어떻게 설정하고 그 조건들을 어떻게 활용하는지는 분석할 때 각자의 주관에 따라 달라질 것 같다.
  • 왜 그렇게 했는지에 대해서는 그 이유를 찾고 누구에게나 설명이 필요할 것 같다.

0개의 댓글