이번 이디야 & 스타벅스 매장 입지에 대한 과제는,
물론 짧은 시간동안 진행되었지만,
데이터라는 것에 대한 회의감을 주었다.
근거의 근거가 꼬리를 물고 계속 이어진다.
나의 경우 100m를 참고 여부에 대한 기준점으로 삼았다.
그러나 이 100m는 정말 객관적인 기준점일까?
만약 100m라는 기준점이 객관적인 이유가 A, B, C가 있다고 하자.
그러면 A라는 논거는 객관적인 논거인가?
팀스터디에서도 이러한 이야기를 나누었었다.
정말 객관적이 되려면 무한한 데이터를 수집하고 전처리해야 한다.
하지만 우리의 자원은 유한하다.
이렇게 객관성이 시험받을 때가 올때,
우리는 어떻게 해야 하는가?
탐색적 데이터 분석(EDA)의 이름과 같이,
탐색적이라는 속성 때문에 구조화된 과제 진행이 힘들었다.
시각화를 한 후, 그 시각화를 보고 다음 시각화를 계획하게 된다.
앞서 데이터는 오류를 뱉지 않는다는 글을 썼었다.
이번에도 비슷한 이슈가 있었다.
주소 스크래핑을 다 하고 보니 주소가 겹치는 경우가 있었다.
어떻게 주소가 겹칠 수 있지? 하고 보니 같은 빌딩에 2개의 지점이 있는 경우가 있었다.
교수님께 프리토킹 시간에 문의를 드렸었고, 검증하기는 어렵다는 이야기를 들었다.
그리고 pandas를 사용하면서 느낀 것은,
상당히 너그럽다는 것이다.
아무렇게나 작성해도 작동하는 느낌...
이러한 너그러움이 독으로 작용한다.
작동되지 않아야 하는데, 작동이 되어버린다.
결론은 "얼른 객체지향과 데이터베이스를 쓰자"
데이터를 수집할 때 최대한 일괄적인 형태를 유지하는 것.
그리고 비슷한 시사점(?)이 있는 데이터는,
비슷하게 처리를 해야 한다는 것이다.
예를 들어, 이번 이디야 & 스타벅스 매장 입지 수집 시,
이디야와 스타벅스의 데이터프레임 구조는 동일했다.
그러나 이디야 시각화를 할 때와 스타벅스 시각화를 할 때,
개별로 진행하다보니 이디야에서 썼던 함수를 스타벅스를 위해 다시 작성하는 식의 비효율이 있었다.