LG Aimers 해커톤 준비 도중 데이터의 분포가 행 위치를 기점으로 달라지는 것 같다는 생각(하지만 실제로 KNNimputer을 쓸 때는 simpleimputer을 쓸 때보다 눈에 띄게 좋은 성능이 나타나지 않음)이 들어 찾아보게 된 결측값을 채우는 방법이다.
판별하고 싶은 데이터와 인접한 k개의 데이터를 보고 해당 데이터의 레이블을 결정하는 알고리즘이다.
데이터 전처리로 결측값을 채울 때 이 알고리즘을 쓴다면 내가 채우고 싶은 결측치 자리의 주변 데이터 분포를 확인하고 적절한 비슷한 데이터로 채워줄 것이다.