2013년 빅데이터를 활용한 심야버스 노선 선정 사례를 바탕으로 노선 수요 예측에 대한 도메인 지식을 배웠다.
문제 해결을 위해 이용자의 수요 반영이 가장 중요하며, 이용자의 수요를 이해하기 위해서는 도메인 지식이 반드시 필요하다.
서울시 공공데이터 중 버스 승하차 이용데이터 등 4개의 데이터를 적절히 처리하여 하나의 df로 재구성하였다.
단순히 merge를 위한 처리 뿐 아니라, 단변량 시각화·이변량 시각화를 바탕으로 아이디어를 도출하고 여기에 필요한 데이터를 처리하였다.
seaborn, matplotlib이 제공하는 시각화 Tool을 이용해 단변량 분포와 변수간 관계를 확인하며 데이터 및 도메인에 대한 이해도를 높였다.
분석 가능한 df로부터 상관계수를 확인하여, 관계가 있는 변수간의 가설을 수립하였다.
하지만 데이터를 처리하는 방법 및 관점에 따라 다양한 가설이 도출이 가능하다.
즉 df를 만드는 데이터 처리 과정이 가설 수립 및 결과 도출에 있어 매우 중요함을 알 수 있다.
화이트보드를 최대 3개까지 무료로 제공하는 온라인 토론 보조 Tool이다.
비대면 토론에 최적화 되어 있다.
포스트잇과 선분을 통한 아이디어 전개, 익명 투표시스템을 주요 기능으로 제공한다. 신속한 토론 진행을 위한 타이머 제공한다.
다 함께 아이디어를 마음껏 발산할 수 있는 환경 제공
빅 마우스 주도의 토론 및 프리라이더의 등장을 예방
동조의 압력으로 인한 잘못된 의사결정 감소
NGT 기법 : 참가자간 대화 없이 일정시간 동안 자신만의 생각을 포스트잇에 적고 이후 한 명씩 돌아가면서 의견을 발표한다.
PEST 기법 : 주제와 관련된 환경 요인을 정치/경제/사회/기술 관점에서 분석한다.
페르소나 기법 : 매우 구체적인 가상의 고객을 만들어 해당 고객의 니즈를 파악한다.
Multi-Voting : 투표할 아이디어/항목 수의 1/3만큼 각각에게 투표권을 부여하여 무기명 투표를 실시
가장 많은 투표를 받은 상위 1/3을 후보로 선정하여 토론을 진행한다.
- 가설/아이디어의 범위를 축소할 때 효과적이다.
값을 잘못 수정하거나, 이상한 열을 추가/삭제해서 처음부터 다시 한 것이 한두번이 아니다.
해결할 수 있더라도 꼬인 것을 수정하기 위해서 코드가 난잡해지고, 정리가 불가능한 상태가 된다.
꼭 값 변경전에는 되돌릴 수 있도록 복사본을 만들어 두자
다소 이전으로 돌아가서 수정해야할 것이 있거나, 실행했던 코드를 다시 찾을 때 난잡한 코드 배열로 인해 상당한 지옥을 느꼈다.
다음부터는 아무리 마음이 급해도 작업 단위로 셀을 끊고 순서에 맞게 주석을 넣어가며 차근차근 하자.