📝 오늘 공부한 내용
KNN (K-Nearest Neighbors)
K개의 이웃을 고려하여 현재 데이터의 값을 예측
KNN과 KMeans는 같지 않다!
Feature Engineering
- 데이터를 분석하고자 하는 목적에 맞게 가공하는 과정
raw data --> (feature engineering) --> feature vecotr
차원의 저주
- feature space의 차원이 커질수록 (e.g 200) 머신러닝 성능이 저하되는 문제
- solution) 차원 감소 기법 (dimensionality reduction)을 이용하여 저차원 공간으로 변환
상관관계 분석
- Pearson's correlation coefficient
-> 선형적 연관성만 계산 가능하다
corr(X,Y)=σxσycov(X,Y)
- input feature(X) 사이의 상관관계를 통해 비슷한 정보를 주는 피처를 확인할 수 있음
상관관계 != 인과관계
Feature Scaling
-
서로 다른 feature들이 값을 가지는 범위가 다름 -> 비교 가능하려면 동일한 범위 (거리 계산이 가능한)에 존재해야 함
-
scaling을 통해 피처들의 크기를 맞춤
-
min-max scaling : 범위 통일 [0, 1]
-
standard scaling : 기준 통일 [-∞, ∞]
🌷 느낀점
강사님이랑 다시 배운 걸 복습해보니까 이제야 어렴풋이 잡혀나가는 것 같다. 앞으로 할 프로젝트도 이런 감각을 기억하면서 천천히 돌려봐야지 ㅎㅎ