알고 있는 metric 설명
precision은 Positive라고 예측한 값들 중 실제로 Positive인 비율을 말합니다. 정답이 아닌데 정답이라고 예측한 것이 있는지 확인하기 위한 지표로, 스팸메일과 같이 Negative 데이터를 Positive로 잘못 예측하면 큰 피해가 발생하는 경우를 예로 들 수 있습니다.
Recall은 실제값 중에서 모델이 맞게 검출한 실제값의 비율을 말합니다. 정답인데도 정답을 못찾는 것이 있는지 확인하기 위한 지표로, 암환자 예측과 같이 Positive 데이터를 Negative로 잘못 예측하면 큰 피해가 발생하는 경우가 예가 됩니다.
정규화를 해야 하는 이유. 정규화 방법
부동산을 예로, 부잣집과 일반 집 가격을 비교하게 되면 범위가 다르기 때문에 직접적인 비교가 어렵습니다. 이처럼 feature를 동일한 정도의 스케일(중요도)로 비교할 수 있도록 정규화, 표준화를 진행합니다. 이를 feature scaling이라고도 합니다.
정규화 방법은 표준화(Z-score), Min-Max scaling, robust scaling이 있습니다. 표준화는 표준편차로 조정, min-max는 최소를 0, 최대를 1로 조정, robust는 중간값을 뺀 후 IQR값을 나눠주는 방식으로 조정합니다.
참고1
참고2 - https://hleecaster.com/ml-normalization-concept/
부스팅 3대장
부스팅 3대장은 XGBoost, LightGBM, CatBoost입니다. XGBoost는 level-wise로 깊이를 줄이고 수평성장하는 방식을 사용하며, learning rate와 n_estimator을 조절하여 과적합을 방지합니다.
LightGBM은 leaf-wise로 비대칭적인 트리를 생성하지만, 예측 오류 손실이 작거나 빠르게 도달할 수 있으며, 결측치 처리를 할 필요가 없습니다. XG부스트보다 빠르지만, 다중 분류나 회귀가 안되는 치명적인 단점이 있습니다.
CatBoost는 범주형 기능에 대한 처리를 제공합니다. 대칭 트리를 형성하며, 희소 행렬을 지원하지 않습니다. 수치형 타입이 많을 때, LightGBM보다 훈련 시간이 오래 걸립니다.