결측치를 채우는 방법에는 여러가지가 존재한다.
특정 대회의 결측치는 "데이터가 없어서" 결측치로 남겨놓는 것도 있다. 그래서 이런 데이터들은 "없다" 라는 느낌으로 채워줘야 하기 때문에 0으로 채우게 되면 모델이 오해할 소지가 생긴다.
(기존 0과 겹칠 수도 있음)
따라서 차이를 주기 위해 -1
을 넣어준다.
만약 없어서 결측치가 아닌 값이 누락되었다면, 다른 식으로 처리해줘야 한다. 예를 들어 평균값이나, 중앙값 등등
all_data2 = all_data2.fillna(-1)
all_data2
all_data2[col] = all_data2[col].fillna(all_data2[col].mode()[0])