
이틀 동안의 1차 미니프로젝트가 끝났다.
수업을 들으면서도 프로젝트만 생각하면 손에 땀이 났는데,,
이번에 직접 해보니 어떤 방식으로 진행되는지 조금은 감이 왔다.
1차 미니프로젝트의 주제는 "서울시 생활정보 기반 대중교통 수요 분석"이었다. 전 기수 분들이 적어주신 후기들을 많이 찾아봤었는데 같은 주제인걸로봐서는 아마 프로젝트 주제가 크게 바뀌진 않나보다.
우리에게 주어진 데이터는 총 4가지였다.
1일차에는 각 데이터를 처리하고 시각화해보는 시간을 가졌고,
2일차에는 1일차에서 처리한 데이터를 모두 merge해서 단변량 분석, 이변량 분석을 통해 최종적으로 결론을 도출하는 시간을 가졌다.
데이터나 세부적인 내용을 공유해도 되는지 잘 몰라서
느낀점 위주로 정리를 해보려 한다.
1일차 회고
1일차에는 이제껏 배웠던 pandas 문법이 100% 비율을 차지하는 실습이었다. 강사님께서 아주 친절하셔서 복잡하거나 어려운 부분은 이미 채워진 실습 파일을 주셨다 왕큰감동
사실 나는 앞서 이루어진 데이터 처리 & 분석 강의를 완벽히 숙지하지 못하고 있다고 생각해서 프로젝트 시작 전 굉장히 스트레스를 많이 받았었는데,
강사님께서 중요하다고 하셨던 부분 위주로 실습이 진행되어서 걱정보다 큰 어려움은 없었다.
역시 한기영 강사님 체고 ..
그리고 주로 사용하는 pandas 문법을 정리해둔 것이 도움이 되었다.
각 데이터 마다 시각화 코드를 돌려보고 해석을 하는 시간을 가졌는데 팀원분들의 다양한 코드와 관점을 들어볼 수 있어서 좋았다.
특히 도메인을 활용할 수 있는 외부 데이터를 가져와서 추가적인 분석을 하신 팀원분을 보고 감탄했다.
데이터 분석이 처음이라 내 코드가 맞는지, 내 해석이 맞는지 확신이 없었는데 팀원분들과 의견을 나누며 조금씩 확신을 가질 수 있었고 점점 재미가 붙었다 !
2일차 회고
2일차에는 직접 가설을 설정하고, 데이터 분석을 통해 가설 검증을 하고, 최종적인 결론을 도출해내는 과정을 거쳤다.
우리가 풀어야 하는 문제는 "어느 자치구에 버스 노선을 더 추가할 것인가?"였다.
우리팀은 여러 히트맵을 그려보며 변수 간 상관 관계 분석에 집중했고, 이를 통해 얻은 인사이트로 굉장히 많은 토의을 진행했다.
시간 가는 줄 모르게 토의를 하다보니 마감 30분쯤 남겼을 때야 발표 자료 제작을 시작했다 ㅜㅜ 시간이 빠듯해서 제출 마감 직전에 겨우 제출할 수 있었다,,
아쉬웠던 점 & 보완할 점
가장 아쉬웠던 점은 데이터를 분석하는 방향성에 대해 논의하지 않은 채, 무작정 데이터 분석을 한 것이다. 사실 모두들 데이터 분석이 처음이라 가설 설정부터 어려웠다. 그래서 일단 가설은 대략적으로 세워두고 데이터 분석 먼저 하자!라고 생각했던 것이 패착이 된 것 같다.
데이터 분석부터 하자니 분석해야 할 데이터가 너무 많았고, 정리되지 않은 많은 시각화 자료를 보며 데이터 간 연관성이나 흐름을 캐치해내지 못했다. 그러니 다양한 분석을 진행했어도, 가설 검증이 확실치 않았고 결론을 도출해내기 어려웠다.
다음 미프 때는 팀원들과 어떤 방향성을 가지고 데이터를 볼 것인지, 가설을 어떻게 세우고 검증할 것인지에 대해 확실히 의견을 나눈 후 데이터 분석을 한다면 더 좋은 결과가 나오지 않을까 싶다.
그래도 좋은 팀원분들과 많은 이야기를 나누며 많이 배울 수 있었고, 다른 팀 발표를 들어보며 가설 설정이나 검증 과정에 대해 감을 잡을 수 있었다 !
느낀점
내 성격 상 수업 때 배운 내용을 모두 가져가고 싶어서 이에 대한 압박감이 심했는데
이번 프로젝트를 해보니 중요한 부분을 우선 가져가고, 나머지 세세한 부분들은 정리본으로 만들어두면 좋을 것 같다는 생각이 들었다.
그리고 한기영 강사님께서 말씀하셨던 것처럼, 데이터 분석은 혼자 공부하지 말고 꼬옥 스터디로 해야겠다는 생각도 들었다. 나는 왕초보데분가니까 ...💭

저번주부터 머신러닝에 대해 배우고 있는데 내가 좋아하는 분야라 기대가 된다
열심히 공부해서 2차 미프 때는 더 잘해야겠다 파이팅 !