모각코 5주차

강태공·2022년 8월 7일
0

개인목표

-“2020.05~2022.05 유성구 지역화폐 이용” 데이터셋을 EDA만!! 해보기. = 70% 완성?

모각코 결과

EDA 데이터셋을 무엇으로 고를지 고민을 하다가 공공데이터에서 다운받을 수 있는 유성구 지역화폐(온통대전)과 관련된 데이터셋을 발견하였다. 선택한 이유는 평소 사용했던 지역화폐가 어떤 특징을 가지고 있는지가 궁금해서였고, 무엇보다도 손쉽게 CSV형식으로 얻을 수 있는 데이터였기 때문이다.

  1. 데이터셋 합치기

  1. 이용년+이용월 변수를 합쳐서 날짜 데이터 형식으로 바꾸기

.info로 변수 "이용년월"를 datetime 타입으로 초기화.

필요없는 컬럼 삭제

  1. 박스플랏 그려보기

말도 안 되는 분포를 보이는 것을 확인하였다.

  1. 이상치 제거( 사분위수 활용)

4-1 쓸모없는 데이터 제거 = 이용건수 100 이상만 추출.

  1. 다시 박스플랏 그려보기

이용건수의 박스플랏

이용금액에 대한 박스플랏

  1. 산점도

  2. 히스토그램

이용년월 히스토그램

이용건수 히스토그램

이용금액 히스토그램

이렇게 한쪽으로 치우쳐진 데이터분포는 어떻게 접근해야 하는가,,를 고민해보자
그렇지만 데이터특성상 이런 분포가 나올 수 밖에 없다
왜냐하면 온통대전 캐쉬백 한도가 50만원이기 때문에.. 대부분의 사람들은 캐쉬백 한도 부근에서 가장 많이 사용을 할 것이라 추측한다..그 근거로 중위값 500이 나오는 이유이기도 하다.
그렇게 생각해도 사실 이해가 되지 않는 부분은,
굳이 50만원 이상을 쓰는 사람들은 어떻게 이해해야 하는가?? 왜 캐쉬백 한도를 벗어난 소비행태를 보일까?..중복값인가?
데이터들의 변수에 대한 이해가 아직 충분히 덜 되었고, 사실 설명도 그렇게 친절하지가 않다.
"지수이용금액"이 소비금액을 의미하지 않으며, 구청 직원의 설명으로는 소비금액이 특정 기준에 의해 지수화되었다고 한다.
"지수
이용건수"도 이해가 되지 않는 부분이 많다. 곰곰히 생각해보면 튜플이 의미하는게 무엇인지 파악하는 것이 가장 중요한 문제가 될 것 같다.
이용건수가 1525.00 이용금액이 2142.76인 튜플에서 변수 간 관계 파악이 전혀 되지 않고 있다. 속성 파악이 우선시 되어야 한다.
한편 다른 종류의 공공 데이터셋인 "유성구 발급월별 소비금액 지수"에는 연령과 성별 데이터가 있는데, 이를 바탕으로 캐쉬백 한도 초과 사용자들 중 남자가 많은지 여자가 많은지, 연령대에 대한 파악을 시도해 볼 수도 있겠다.
잠정적인 결론은..캐쉬백한도가 50만원이기 때문에 특정 구간(캐쉬백한도)에 데이터량이 많은 것으로 추측된다.

0개의 댓글