EDA 과제, 어려웠던 부분들

I'm Cape·2023년 6월 12일
0

객관성에 대한 회의감

이번 이디야 & 스타벅스 매장 입지에 대한 과제는,
물론 짧은 시간동안 진행되었지만,
데이터라는 것에 대한 회의감을 주었다.

근거의 근거가 꼬리를 물고 계속 이어진다.

나의 경우 100m를 참고 여부에 대한 기준점으로 삼았다.
그러나 이 100m는 정말 객관적인 기준점일까?

만약 100m라는 기준점이 객관적인 이유가 A, B, C가 있다고 하자.
그러면 A라는 논거는 객관적인 논거인가?

팀스터디에서도 이러한 이야기를 나누었었다.
정말 객관적이 되려면 무한한 데이터를 수집하고 전처리해야 한다.
하지만 우리의 자원은 유한하다.

이렇게 객관성이 시험받을 때가 올때,
우리는 어떻게 해야 하는가?

계획을 세우기가 힘들다

탐색적 데이터 분석(EDA)의 이름과 같이,
탐색적이라는 속성 때문에 구조화된 과제 진행이 힘들었다.

시각화를 한 후, 그 시각화를 보고 다음 시각화를 계획하게 된다.

  • 즉, 미리 "5개의 시각화를 해야지"하고 계획할 수 없다는 것이다.
  • 5개를 계획했는데 첫번째 시각화를 보니 이후 4개의 시각화가 필요가 없을 수 있고,
  • 5개를 계획했는데 5번째를 보니 더 시각화를 해야겠다는 생각이 들 수도 있다.
  • 이런 식으로 진행하다보니, 주제와 관련 없는 데이터를 조작하고 있는 나를 발견하기도 했다.
  • 즉, 데이터에서 표류를 하고 있다는 기분이 강하게 들었다.

늘 어려운 것: 내가 맞게 한걸까?

앞서 데이터는 오류를 뱉지 않는다는 글을 썼었다.
이번에도 비슷한 이슈가 있었다.
주소 스크래핑을 다 하고 보니 주소가 겹치는 경우가 있었다.
어떻게 주소가 겹칠 수 있지? 하고 보니 같은 빌딩에 2개의 지점이 있는 경우가 있었다.
교수님께 프리토킹 시간에 문의를 드렸었고, 검증하기는 어렵다는 이야기를 들었다.

그리고 pandas를 사용하면서 느낀 것은,
상당히 너그럽다는 것이다.
아무렇게나 작성해도 작동하는 느낌...
이러한 너그러움이 독으로 작용한다.
작동되지 않아야 하는데, 작동이 되어버린다.

잠정 결론

결론은 "얼른 객체지향과 데이터베이스를 쓰자"

데이터를 수집할 때 최대한 일괄적인 형태를 유지하는 것.
그리고 비슷한 시사점(?)이 있는 데이터는,
비슷하게 처리를 해야 한다는 것이다.

예를 들어, 이번 이디야 & 스타벅스 매장 입지 수집 시,
이디야와 스타벅스의 데이터프레임 구조는 동일했다.
그러나 이디야 시각화를 할 때와 스타벅스 시각화를 할 때,
개별로 진행하다보니 이디야에서 썼던 함수를 스타벅스를 위해 다시 작성하는 식의 비효율이 있었다.

profile
Impact

0개의 댓글