🦝 8/4(수)~6(금) 3일간 제 1회 해커톤: 캐글 축제가 진행되었다. 9개 조 중에서 5조에 배정되어 장재성님, 최성휘님 이렇게 한 팀이 되어 Kaggle의 Recruit Restaurant Visitor Forecasting에 참가하여 점수 도출 및 시각화 결과를 발표해야 했다. 수요일 9:40am 부터 금요일 12:30pm 동안 진행하였고 13:30pm 부터 각조가 돌아가면서 발표를 진행했다. 우리조는 병휘님이 발표하였다. 병휘님이 우리끼리 각자 데이터를 확인한 것을 정리해주시면서 전체흐름을 발표하고 재성님과 내가 Q&A때 답변하는 형식으로 준비하였는데 발표만하고 Q&A시간이 없었다😂. 첫 회다 보니 같은 데이터로 분석하여 모델을 돌리다보니 각 조들이 대동소이 했다. 하필 마지막으로 우리조가 발표하다보니 우리의 시각화 무기가 다른 조에서 한두개씩 있었다. 하지만 병휘님이 시각화를 통해 연관된 GDP자료 등을 추가하여 특색있는 OUTPUT을 볼 수 있었다. 재성님이 여러가지 모델을 학습하고 테스트 해보면서 제일 점수가 잘 나온 모델을 선택할 수 있었고 어떤 모델은 3시간이 걸려도 학습이 끝나지 않았다고 하여 정말 데이터가 큰거구나 싶었다. 이전에 LIKE LION에서 해커톤을 했을 때 결과물을 재시간에 마무리하지 못한 상태로 발표하고 끝냈어서 아쉬웠는데 이번엔 늦지 않고 여유롭게 시간내에 결과를 만들어내서 제출했던게 가장 뿌듯했다! 내 지분율이 적어 아쉬움은 있지만 모두와 결과물을 만들었다는게 뜻깊었다!
- 해커톤(hackathon) :
- 해킹(hacking) + 마라톤(marathon)
- 소프트웨어 개발 분야의 프로그래머나 관련된 그래픽 디자이너, 사용자 인터페이스 설계자, 프로젝트 매니저 등이 정해진 시간 내에 집중적으로 작업하여 결과물을 만들어내는 소프트웨어 관련 이벤트(출처: 위키피디아)
😺 내가 한 일 😺
-
회의 내용 정리
to-do (8/4 수요일 분)
- 년월일 데이터 시각화(공휴일/평일/요일별 방문객 수)
- visiter data, reverve data 합치기
- hpg_reserve, hpg_store_info의 hpg store_id로 store_id_relation 이 무엇인지 확인하기
-
날짜, 시간, 주소 columns들을 우리가 조작하기 편하게 분할
- datetime(string) ⇨ data(datetime), time(datetime)
- air_area_mame(string) ⇨ todobuken(string), city(string)
-
분할한 column으로 line plot 시각화
-
data merge
- air ⇦ air_reserv, air_store_id, store_ids
- hpg ⇦ hpg_reserv, hpg_store_id, store_ids
- store_ids를 기준으로 air, hpg 최종 병합
- 재성님이 먼저 1차로 air는 left, hpg는 outer로 데이터 병합을 진행했으나 outer 병합으로 결측값이 10만개 이상 발생 및 업종에 대한 범주 수가 변형이 발견되어 어떻게 join 할지 논의
- 나는 outer로, 병휘님 inner join을 진행하여 비교하여 최종inner로 데이터를 모두 합병함. outer로 join할 수록 너무 많은 결측값을 발생함. 데이터가 많을 수록 안정적이지만 결측값이 많아지면서 데이터가 많다면 안정성에 근거가 되지 않을 것이라 판단함.
-
병합한 데이터로 결측값, 이상치 확인
- 이상값 제거 활동은 하지 않음. 다음에는 같이 해볼 것!
📌 검색자료 정리📌
- 문자열 파싱
- 데이터 필터링
- boxplot
- Matplotlib그래프
🏆 결과 🏆
- 1단계 & 2단계 통과!!!!
- 1단계는 전원통과 ㅎㅎㅎ 1단계만 되도 좋겠다 했는데 ㅎㅎ ye
~~~✌ 오예오예😁🤗
🐱👓 배운 점 🐱👓
- 혼자보다 여럿이 검색하며 찾으니 더 다양한 코드, 아이디어를 찾을 수 있었다.
- 병휘님의 정리, 재성님의 추진력을 배울 수 있었다.
- 주어진 데이터, 코드로 복붙같은 학습에서 exploration만 해도 어렵다 했지만 exploration도 어는 정도 가이드가 된 데이터 방향성이 있는 과제 였다.
- 진짜 raw data에서 insight를 뽑을 수 있도록 한 걸음 다가간 것 같다.
- 1조의 태환님의 발표에서 ERD(Entity Relationship Diagram) Diagram 그려서 발표듣는 나도 데이터를 이해하기 좋았고 다음에 해커톤이나 데이터 분석에서 데이터 구조를 정리하면 분석할 때도 좋을 거 같다.
👻 아쉬운 점 👻
- EDA 지식을 할용하지 못했음.
- 1차적인 데이터 시각화에만 집중하다보니 columns별로 종속변수에 연관성 분석, 상관분석을 생각하지 못해서 아쉽다.(금요일 제출 후에 점심먹고 생각남😨)
- 시계열 데이터로써 사용 가능성을 확인하지 못 함
- 내 역할을 내 스스로 정하지 못한게 아쉽고 혼란이 올때 시간 버리지 말고 다른 사람들의 코드를 이해하는 과정이라도 해보자!
- 재성님이 구성한 train-test set 및 model 흐름을 이해 못했다.(왜? 안해봤으니까...😰)
- 매주 두더지(두시데이터) 수업에서 각 챕터 공부하고 와야 하는데 발표 때만 준비하고 말았더니 해커톤 시작하여 데이터 볼때도 막상 어떤 코드를 써야 할지 고민되었다. 매주 챕터 필사를 놓치지 말고 하자.(근데 1회 남은 거 같음 ㅠ)
- velog에 정리한게 생각보다 다시 볼 때 편하지 않았다. 다시 보고 재정리 및 갱신이 필요하다.
- 자신감 부족. 이게 될까 걱정보다는 일단 해보고 뭐가 문제인지 확인해서 그때 그때 조원들에게 물어보자.
- 맞은지 틀린 지 보다 하고 싶은 건 다 해보자!
🤔 궁금한 점 🤔
- colab 정리해서 github에 올린 주소 여기에 추가해 보자!