데이터 분석 TIL - 프로젝트 데이터 전처리 규칙 통일화 회고

테리·2025년 11월 21일

1. 학습 키워드

데이터 전처리 규칙 통일화

2. 학습 내용

EDA를 진행함에 앞서 데이터 전처리가 정말 중요하다

팀원 각자가 우선 데이터를 바탕으로 EDA를 진행하기로 했다. 하지만 이 과정에서 들었던 생각이 EDA를 진행하는 데이터의 통일성이 없으면 똑같은 분석을 하더라도 다른 결과가 나올 것이라고 생각했다.

그럼 무엇을 해야할까? 분석 데이터의 통일성을 위해 전처리 규칙을 정하고 함께 정하는 것이라고 생각해 팀원들과 회의할 때 이 부분을 제안했다.

전처리 통일화.. 생각보다 어렵다

나 혼자 데이터를 전처리 할때는 그렇게 어렵지 않았다. 나의 기준과 생각대로 이상치를 제거하고 값을 보완하고 컬럼을 제거하면 됐기 때문이다.

하지만 다같이 결측치와 이상치에 대한 기준을 잡는 과정에서 서로가 생각하지 못 한 부분에 관해 의견을 조율하는 것이 정말 오래 걸렸다. 나는 제거해도 된다고 생각하는 값을 누군가는 중요하게 생각하기도 했고 그 반대의 경우도 있었다.

부동산 거래 접수 연도와 계약일의 관계에서 같은 년도가 아니면 이상치로 생각했던 나와 달리 부동산 정책을 살펴보고 조금 더 구체적인 기준으로 이상치를 나누자고 의견을 제시한 팀원도 있었다.

1시간 이상, 의견 조율에만 너무 큰 시간이 걸린 건축 년도 컬럼

건축 년도가 null인 데이터를 그냥 제거 할것인가?

건축 년도가 null 인 데이터에 대해 제거를 할지 새로운 값으로 채워 넣을지에 대한 의견도 오래 지속됐다. 아파트의 경우 건축 년도가 없거나 0인 값으로 표현되어 있으면 '권리 구분' 컬럼 값을 통해 재개발이나 공사 중인 건물임을 확인 할 수 있었다. 하지만 오피스텔은 이 값마저 null이었기에 어떤 상태인지 알수가 없었다.

수천 수백개의 건물명 데이터를 하나씩 다 검색해서 재개발 중인 오피스텔인지 확인한다는 것도 무리였다.

  • 오피스텔에 대한 데이터가 너무 많이 사라지는 것이 아닌가?
  • 만약 신규 오피스텔이라면 금액이 저렴할 수도 있고 가격이 급변할 수도 있는데 그 데이터를 다 날리는 것이 맞는 것인가?

특정 데이터에 대한 값을 없애는 것에 대한 걱정과 아쉬움이 있는 것은 충분히 이해하지만 우리의 추측으로 데이터를 임의로 채워 넣는 것은 왜곡이라는 더 큰 리스크가 있기에 반대를 했다.

오피스텔의 건축 년도권리 구분이 없는 이유가 단순 누락인지 진짜 재개발인지 알 수 없다.
그렇기에 null인 데이터는 제외해야 한다.
우리의 추측으로 데이터를 넣으면 안된다.

이것이 나의 주장이었다. 결국 이 방향으로 진행하기로 했고 이 밖에도 다른 여러 기준에 대한 의견을 조율하며 전처리 규칙을 정했다. 이렇게 작성하면 쉽게 의사결정이 난 것 같지만 여러 상황을들 고려하다 보니 이 시간만 3시간이 걸렸다.

3. 배운점

  1. 여러명이 의견을 조율하는 것은 항상 쉽지가 않다. 그 과정에서 과몰입이 되기도 하고 누군가는 지칠수도 있다. 그래도 이러한 과정이 있기에 내가 생각하지 못했던 부분을 생각해 보고 정리할 수 있는 것이다. 그리고 조율을 하는 과정을 통해 개인 이상의 결과물을 만들어 낼 수 있는 것이 팀 프로젝트의 좋은 점이라고 생각한다.

0개의 댓글