MSE와 RMSE의 차이와 해석 방법
MSE가 3천만 단위여도 이상한 게 아니며 실제 오차 규모를 판단할 땐 RMSE를 봐야 한다는 걸 직접 체감했다.R2(결정계수)의 의미와 한계
다항 회귀의 차수와 과적합 관계
랜덤포레스트의 비선형적 특성과 다항 특성의 효과
cross_val_score를 활용한 일반화 성능 평가
make_scorer를 활용한 cross_val_score 커스터마이징 방법을 익혔다.
scikit-learn에서 로그값을 타겟으로 사용할 때 역변환 기반으로 평가 지표를 정의해야 모델 성능을 실제 해석 단위로 비교할 수 있다는 점을 이해했다.
불균형 이진 피처 제거의 효과 (중고차 데이터)
전체 피처 중 bool 타입의 칼럼에서 불균형 분포(0.05 미만 또는 0.95 초과)를 제거하니 약 70개 이상이 제외되었고 모델 성능에 긍정적인 영향을 준다. 불필요한 노이즈를 줄여줌.
KMeans 알고리즘은 중심점을 기준으로 데이터를 군집화하는 방식!
PCA (주성분 분석)는 고차원 데이터를 더 적은 차원으로 줄이면서도 최대한 정보(분산)를 보존하려는 방법이라는 점!
DBSCAN 알고리즘은 KMeans의 한계를 보완하는 밀도 기반 군집화 기법
고차원 데이터에서는 DBSCAN의 거리 개념이 왜곡될 수 있다는 점도 알게 되었고 이를 보완하기 위해 PCA와 함께 사용하는 것이 효과적이라는 점을 통해 차원 축소와 군집화가 함께 연동되어야 하는 경우가 많다는 걸 이해하게 되었다.
다항 차수 증가 시 학습 시간이나 feature 수 증가에 따른 모델 복잡도에 대한 평가는 아직 미흡했다.
변수 중요도 관점에서 선형 모델과 트리 기반 모델의 차이를 비교해보는 시도는 부족했다.
모델별로 오차가 큰 구간이 어디인지 등 잔차 분석이나 예측 오류 시각화는 조금 부족했다.
중고차 데이터에서 모델별 성능 차이가 뚜렷하게 드러나지 않았고 모든 모델의 성능이 비슷하게 낮은 것으로 나타났다.
→ 이는 인코딩 오류, feature 설계 미흡, 불필요한 컬럼 존재 등이 원인일 수 있음.
하이퍼파라미터 튜닝 전 성능 평가에서 정리 부족
현재 상태에서 XGBoost가 Test RMSE는 가장 낮지만 CV RMSE 기준으로는 RandomForest가 앞서기도 하는 결과가 나왔음. 이 차이가 왜 발생하는지 모델의 구조와 학습 방식 차이 측면에서 해석해보는 시도가 부족했다.