빅콘테스트(혁신 아이디어부문) 피드백

0

저는 이번 글을 통해 제가 왜 빅콘테스트에서 어려움을 느꼈는지 말씀드리고 이후 빅콘테스트 대회에서 어떻게 해야 할지 말씀드리고자 합니다.

내년 대회에는 제공되는 데이터가 바뀔수도 있지만 19년도 수상자의 데이터와 올해 제공된 데이터가 유사함에 따라 내년에도 비슷할 것이라 판단됩니다.

저는 자기소개서에 쓸 스토리를 만들고자 같이 빅데이터를 공부하던 사람들과 저 포함 5명의 팀을 이루어 이 대회에 참가하게 되었습니다. 팀원 3명은 빅데이터를 다루어보지 않은 점, 공부와 분석을 병행해야 하는 점이 대회 참가 시 문제 되는 부분이었습니다. 하지만 2개월 가량의 시간이 있는 점, 공부한 것을 분석에 사용하면 유의미한 결과가 나올 것이라는 점 때문에 불리한 점을 무릅쓰고 대회에 참가하게 되었습니다.

저는 대회를 진행하면서 개인적인 어려움과 팀적인 어려움 두가지를 직면하였습니다. 독자분들께 도움이 되고자 개인적인 어려움부터 말씀드리겠습니다.

첫번째 어려운 점은 다양한 카테고리가 가져오는 분석의 어려움이었습니다.
제가 그동안 분석해온 데이터는 하나의 결과로 응집되어온 데이터들이었습니다. 많은 분들이 데이터 분석 시 처음 접하는 타이타닉을 그 예로 들 수 있습니다.
하지만 빅콘테스트에서 준 데이터는 달랐습니다. 여러분은 자신에게 서울시의 유동인구 데이터와 대구시의 유동인구 데이터가 있다면 어떻게 다루시겠습니까? 분명 서울시와 대구시가 가지는 데이터의 트랜드는 다를 것입니다. 그러기 위해선 서울시와 대구시를 나누어서 보아야 합니다. 그러면 서울시의 유동인구 데이터가 가지는 특성은 모든 구, 모든 동이 유사할까요? 답은 아니요입니다. 강남구는 다른 구와 달리 유동인구가 많을 것입니다. 특정 동은 주변에 회사도 없고 사는 인구도 적어서 유독 유동인구가 적을 수 있습니다. 그러다보니 데이터를 동을 기준으로 나누게 되면 같은 분석(정규성 검증, 정상성 검증 등)을 여러번 하게 됩니다.
따라서 빅콘테스트를 준비하는 분들은 자신의 분석 프로세스를 함수 또는 객체로 만드는 것을 추천드립니다.

데이터 파이프라인이라는 용어가 있습니다만 여기선 그 용어를 사용하지 않았습니다. 왜냐하면 제가 이해한 데이터 파이프라인의 정의는 지금 상황에 맞지 않기 때문입니다. (데이터 파이프라인: raw 데이터를 가공하여 분석하기 편리한 데이터로 변환하는 과정을 프로그래밍화 한 것[제가 이해한 정의])
지금은 분석을 위해 준 데이터 이기에 사용하지 않았습니다.

두번째 어려운 점은 시계열 데이터를 다루어야 하는 점입니다.
대회 당시 저의 계획은 제공된 데이터를 일일 기준으로 재배치하여 어느 상황에서 매출이 증감하는지 파악하려 하였습니다. 시계열 데이터가 정상성을 가진 상태에서 정규성도 가지고 있어 모든 컬럼이 정규성을 가진다면 여러 분석이 가능했습니다. 하지만 정규성을 가지지 않고 정상성도 특정 동마다 다르게 되면서 분석이 어려워 졌습니다. 일부 동은 차분을 해야 했습니다. 또한 제가 시계열 데이터를 많이 다루어 보지 못하면서 분석 보다는 이론 공부에 시간이 더 투자 되게 되었습니다.
따라서 추후 21년 대회를 준비하시는 분들은 시계열 데이터를 많이 다루어보고 대회에 참가할 것을 권장해드립니다.

팀적인 어려움도 두가지가 있었습니다.

첫번째는 일정관리의 어려움이었습니다. 사실 개인적인 어려움이기도 한 부분입니다. 제가 느려서 일수도 있지만 계획한 만큼 분석의 진도가 더디였습니다. 개인이 참가한다면 이것은 단순한 숙련도 차이라 생각되실겁니다. 하지만 팀으로 참여하신다면 이 부분은 대회에서 큰 문제로 작용합니다. 누군가는 분석을 어느 정도 하고 분석 결과를 종합하려는데 다른 분이 물류 데이터 분석을 제대로 하지 않아 일정이 미뤄지게 됩니다.
그리하여 팀으로 대회를 참여한다면 일일 결과를 수치화,명목화해야 합니다. 그리고 3일에 한번은 만나서 결과를 공유하고 분석이 더딘 사람을 끌어올리는 과정이 필요하다고 생각합니다.

두번째는 수동적인 팀분위기입니다. 많은 독자분들께서 팀적인 불화, 수동적인 분위기 둘다 겪은 경험이 있을 것이라 생각됩니다. 수동적인 팀분위기로 인해 분석은 계속 더디여져 갔고 여러 사유들로 인해 모이기도 어려웠습니다.

저는 결국 위의 어려움으로 인해 빅콘테스트를 중간에 포기하게 되었습니다.

빅콘테스트는 기업이 주는 데이터를 다룰 수 있는 점, 수상자들은 자기소개서에 강하게 어필 가능한 스토리가 생기는 점 때문에 데이터 분석을 취업으로 준비하는 사람들에게 좋은 대회입니다.
특히 수상자들이 데이터 분석으로 취업할 수 있게 강하게 지원해 주는 점 때문에 이 글을 읽는 독자분들이 빅콘테스트를 참가하길 추천드립니다.
또한 제가 공유한 몇가지 팁을 활용해 좋은 결과 있었으면 좋겠습니다.

profile
유의미한 노력을 하자, 매일 내가 한 것을 산출물로 만들자!

0개의 댓글