데이터 전처리_KNN imputer

은영·2023년 2월 23일
0

LG Aimers 해커톤 준비 도중 데이터의 분포가 행 위치를 기점으로 달라지는 것 같다는 생각(하지만 실제로 KNNimputer을 쓸 때는 simpleimputer을 쓸 때보다 눈에 띄게 좋은 성능이 나타나지 않음)이 들어 찾아보게 된 결측값을 채우는 방법이다.

여기서 KNN 알고리즘이란?

판별하고 싶은 데이터와 인접한 k개의 데이터를 보고 해당 데이터의 레이블을 결정하는 알고리즘이다.


출처:https://rebro.kr/183

데이터 전처리로 결측값을 채울 때 이 알고리즘을 쓴다면 내가 채우고 싶은 결측치 자리의 주변 데이터 분포를 확인하고 적절한 비슷한 데이터로 채워줄 것이다.

활용한 예시 코드 링크 : https://github.com/azzbc7819/test_igaimers/blob/develop/%EA%B3%A0%EC%9D%80%EC%98%81_line_productcode_%EA%B5%AC%EB%B6%84_KNN_RandomForest50_%EC%A0%9C%EC%B6%9C%EC%9A%A9_%EC%BD%94%EB%93%9C_%EC%88%98%EC%A0%95.ipynb

0개의 댓글

관련 채용 정보