TIL - 2023.06.14

배엘리·2023년 6월 14일
0

TIL

목록 보기
11/23

📝 오늘 공부한 내용

KNN (K-Nearest Neighbors)

K개의 이웃을 고려하여 현재 데이터의 값을 예측

KNN과 KMeans는 같지 않다!

Feature Engineering

  • 데이터를 분석하고자 하는 목적에 맞게 가공하는 과정

raw data --> (feature engineering) --> feature vecotr

차원의 저주

  • feature space의 차원이 커질수록 (e.g 200) 머신러닝 성능이 저하되는 문제
  • solution) 차원 감소 기법 (dimensionality reduction)을 이용하여 저차원 공간으로 변환

상관관계 분석

  1. Pearson's correlation coefficient
    -> 선형적 연관성만 계산 가능하다
corr(X,Y)=cov(X,Y)σxσycorr(X, Y) = \frac{\text{cov}(X,Y)}{\sigma_x \sigma_y}
  • input feature(X) 사이의 상관관계를 통해 비슷한 정보를 주는 피처를 확인할 수 있음

상관관계 != 인과관계

Feature Scaling

  • 서로 다른 feature들이 값을 가지는 범위가 다름 -> 비교 가능하려면 동일한 범위 (거리 계산이 가능한)에 존재해야 함

  • scaling을 통해 피처들의 크기를 맞춤

  • min-max scaling : 범위 통일 [0, 1]

  • standard scaling : 기준 통일 [-∞, ∞]

🌷 느낀점

강사님이랑 다시 배운 걸 복습해보니까 이제야 어렴풋이 잡혀나가는 것 같다. 앞으로 할 프로젝트도 이런 감각을 기억하면서 천천히 돌려봐야지 ㅎㅎ

0개의 댓글