210804-06 해커톤(Hackathon)

시에나 Sienna·2021년 8월 7일

AIFFEL

목록 보기

21/66

🦝 8/4(수)~6(금) 3일간 제 1회 해커톤: 캐글 축제가 진행되었다. 9개 조 중에서 5조에 배정되어 장재성님, 최성휘님 이렇게 한 팀이 되어 Kaggle의 Recruit Restaurant Visitor Forecasting에 참가하여 점수 도출 및 시각화 결과를 발표해야 했다. 수요일 9:40am 부터 금요일 12:30pm 동안 진행하였고 13:30pm 부터 각조가 돌아가면서 발표를 진행했다. 우리조는 병휘님이 발표하였다. 병휘님이 우리끼리 각자 데이터를 확인한 것을 정리해주시면서 전체흐름을 발표하고 재성님과 내가 Q&A때 답변하는 형식으로 준비하였는데 발표만하고 Q&A시간이 없었다😂. 첫 회다 보니 같은 데이터로 분석하여 모델을 돌리다보니 각 조들이 대동소이 했다. 하필 마지막으로 우리조가 발표하다보니 우리의 시각화 무기가 다른 조에서 한두개씩 있었다. 하지만 병휘님이 시각화를 통해 연관된 GDP자료 등을 추가하여 특색있는 OUTPUT을 볼 수 있었다. 재성님이 여러가지 모델을 학습하고 테스트 해보면서 제일 점수가 잘 나온 모델을 선택할 수 있었고 어떤 모델은 3시간이 걸려도 학습이 끝나지 않았다고 하여 정말 데이터가 큰거구나 싶었다. 이전에 LIKE LION에서 해커톤을 했을 때 결과물을 재시간에 마무리하지 못한 상태로 발표하고 끝냈어서 아쉬웠는데 이번엔 늦지 않고 여유롭게 시간내에 결과를 만들어내서 제출했던게 가장 뿌듯했다! 내 지분율이 적어 아쉬움은 있지만 모두와 결과물을 만들었다는게 뜻깊었다!

해커톤(hackathon) :
- 해킹(hacking) + 마라톤(marathon)
- 소프트웨어 개발 분야의 프로그래머나 관련된 그래픽 디자이너, 사용자 인터페이스 설계자, 프로젝트 매니저 등이 정해진 시간 내에 집중적으로 작업하여 결과물을 만들어내는 소프트웨어 관련 이벤트(출처: 위키피디아)

😺 내가 한 일 😺

회의 내용 정리
to-do (8/4 수요일 분)
1. 년월일 데이터 시각화(공휴일/평일/요일별 방문객 수)
2. visiter data, reverve data 합치기
3. hpg_reserve, hpg_store_info의 hpg store_id로 store_id_relation 이 무엇인지 확인하기
날짜, 시간, 주소 columns들을 우리가 조작하기 편하게 분할
- datetime(string) ⇨ data(datetime), time(datetime)
- air_area_mame(string) ⇨ todobuken(string), city(string)
분할한 column으로 line plot 시각화
data merge
- air ⇦ air_reserv, air_store_id, store_ids
- hpg ⇦ hpg_reserv, hpg_store_id, store_ids
- store_ids를 기준으로 air, hpg 최종 병합
- 재성님이 먼저 1차로 air는 left, hpg는 outer로 데이터 병합을 진행했으나 outer 병합으로 결측값이 10만개 이상 발생 및 업종에 대한 범주 수가 변형이 발견되어 어떻게 join 할지 논의
- 나는 outer로, 병휘님 inner join을 진행하여 비교하여 최종inner로 데이터를 모두 합병함. outer로 join할 수록 너무 많은 결측값을 발생함. 데이터가 많을 수록 안정적이지만 결측값이 많아지면서 데이터가 많다면 안정성에 근거가 되지 않을 것이라 판단함.
병합한 데이터로 결측값, 이상치 확인
- 이상값 제거 활동은 하지 않음. 다음에는 같이 해볼 것!

📌 검색자료 정리📌

🏆 결과 🏆

1단계 & 2단계 통과!!!!
1단계는 전원통과 ㅎㅎㅎ 1단계만 되도 좋겠다 했는데 ㅎㅎ ye~~~✌ 오예오예😁🤗

🐱‍👓 배운 점 🐱‍👓

혼자보다 여럿이 검색하며 찾으니 더 다양한 코드, 아이디어를 찾을 수 있었다.
병휘님의 정리, 재성님의 추진력을 배울 수 있었다.
주어진 데이터, 코드로 복붙같은 학습에서 exploration만 해도 어렵다 했지만 exploration도 어는 정도 가이드가 된 데이터 방향성이 있는 과제 였다.
진짜 raw data에서 insight를 뽑을 수 있도록 한 걸음 다가간 것 같다.
1조의 태환님의 발표에서 ERD(Entity Relationship Diagram) Diagram 그려서 발표듣는 나도 데이터를 이해하기 좋았고 다음에 해커톤이나 데이터 분석에서 데이터 구조를 정리하면 분석할 때도 좋을 거 같다.

👻 아쉬운 점 👻

EDA 지식을 할용하지 못했음.
1차적인 데이터 시각화에만 집중하다보니 columns별로 종속변수에 연관성 분석, 상관분석을 생각하지 못해서 아쉽다.(금요일 제출 후에 점심먹고 생각남😨)
시계열 데이터로써 사용 가능성을 확인하지 못 함
내 역할을 내 스스로 정하지 못한게 아쉽고 혼란이 올때 시간 버리지 말고 다른 사람들의 코드를 이해하는 과정이라도 해보자!
- 재성님이 구성한 train-test set 및 model 흐름을 이해 못했다.(왜? 안해봤으니까...😰)
매주 두더지(두시데이터) 수업에서 각 챕터 공부하고 와야 하는데 발표 때만 준비하고 말았더니 해커톤 시작하여 데이터 볼때도 막상 어떤 코드를 써야 할지 고민되었다. 매주 챕터 필사를 놓치지 말고 하자.(근데 1회 남은 거 같음 ㅠ)
velog에 정리한게 생각보다 다시 볼 때 편하지 않았다. 다시 보고 재정리 및 갱신이 필요하다.
자신감 부족. 이게 될까 걱정보다는 일단 해보고 뭐가 문제인지 확인해서 그때 그때 조원들에게 물어보자.
맞은지 틀린 지 보다 하고 싶은 건 다 해보자!

🤔 궁금한 점 🤔

merge vs join
- merge : 두 DataFrame을 병합할 때 on 속성을 이용하여 결합에 사용할 column을 명시
- join : DataFrame의 left_index(default), right_index를 이용하여 인덱스를 기준으로 병합
  - left_index : DataFrame 왼쪽에 존재하는 동일한 index를 가진 행끼리
  - (주의할 점! join을 할 때 DataFrame에 중복되는 index가 존재하면 Error)
- 참고자료
태환님이 구성한 sql 데이터 구조도는 어떻게 정리한 걸까
- 2021년 Top 8 무료 ERD 다이어그램 툴 리뷰
- edraw
태원님읜 형광펜 ㅋㅋ 윈도우에선 안되나?
- 판서펜
- 에픽펜, 줌 : 생각해보니 이거 토익끝 동주쌤이 쓰던건데 ㅋㅋㅋ

colab 정리해서 github에 올린 주소 여기에 추가해 보자!

시에나 Sienna

이전 포스트

210802 FUNDAMENTALS 20. 딥러닝 레이어(1)

다음 포스트

210804-06 해커톤(Hackathon)

AIFFEL

210802 FUNDAMENTALS 20. 딥러닝 레이어(1)

210729 EXPLORATION 6. Kaggle

0개의 댓글