데이터 전처리와 시각화 (프로젝트)

김찬울·2021년 8월 3일
0

프로젝트라해서 거창한 것은 아니다. 내 기준의 프로젝트란 스스로 자료를 찾고 클론 코딩에서 벗어난 전반적으로 힘써서 하는 코딩, 그리고 팀원과 합을 맞추어 팀원단위의 분리된 작업들로 하나의 결과물을 도출하는 것을 프로젝트라 칭하고 싶다.

데이터 전처리

일단 어느 데이터를 선택할 지부터가 중요하다. 필자는 고민과 고민끝에 dacon에서 진행중이거나, 연습으로 전환된 대회들의 데이터 코드를 이용하여 전처리와 시각화를 하고 싶었다.
필자의 생각에 팀원들이 충분히 설득되어서 부동산, 신용카드, 결제정보와 같은 세가지의 데이터로 좁혀나갔다.

이 중에서 활용도가 높은것은 부동산이지만 결제정보는 결제 금액, date가 전부인 데이터라서 이를 해석하고 가설을 세워 나름의 결론을 도출하는 것이 꽤나 재밌을 것이라고 판단하여서 결제정보를 선택했다.

결제정보에는 300만개가 넘는 행으로 존재했으며 열에는 스토어 고유 번호, 결제액, 할부, 날짜정보, 시간정보, 공휴일 (0 or 1) 로 이루어져 있었다.

초기 전처리의 과정은 널값을 정리해야 하기에

fillna로 할부개월수가 NaN인 일시불을 1로 두면서 결제액과 할부를 곱하여 총 결제액을 만들기로 했다.

이를 통해서 우리는 시간별, 달별, 일별로 나누어 자료를 분석하고 가설을 세울 수 있었다.

이 중에서도 특징으로는 5월과 12월에 결제가 잦다는 것인데 이를 소득공제라는 가설을 세우며 필자의 팀은 진행하였다.

5월의 소득공제와 12월 소득공제에서 소비가 필요하기에 이때 큰 소비가 이루어질 가능성이 크며, 12월의 경우에는 겨울 준비, 5월의 경우 여름 준비같은 계절적 요소가 많다고 느꼈다.

또한, 결제액의 상위 30%와 하위 30%를 df로 만들어서 비교를 하였는데 자잘한 소비같은 경우에는 특정 달에 영향을 크게 받지 않음을 알 수 있었고, 큰 소비같은 경우 계절적 요인에 영향을 받는 것을 파악할 수 있었다.

해당 내용은 후에 대회에 제출을 하여서 링크를 첨부하도록 하겠다!

profile
코린코린이

0개의 댓글