데브코스 캐글 경진대회

정강훈·2022년 1월 24일
0

데브코스 과정 중 처음으로 팀 경진대회를 하는날이 왔다.
각 팀은 인원을 분배시켜 2문제를 해결해야하는데
1. 타이타닉 데이터
2. 캐글 마켓 데이터
이렇게 2가지의 선택지가 있었다.
나는 타이타닉 데이터를 접해본 적이 있기 때문에 새로운 데이터를 접해보기 위 해 2번을 선택하고 2번 문제를 풀기로 하였다.

https://www.kaggle.com/c/tabular-playground-series-jan-2022

문제는 간단했다.
캐글 마켓의 판매량을 맞추는 회귀문제이다.

데이터는 다음과 같이 주어지는데 회귀문제를 해결하기에 연속형 데이터가 부족하다는 생각이 처음에 들었다.

그래서 date를 이용하여 컬럼을 추가하자는 생각을 하였고,
통계청의 자료를 이용하여 해당하는 나라의 internet 가입자 수(%)와 gdp, 장래인구 총 3가지의 컬럼을 수집하여 추가하였다.

그런 후 country, store, product는 원핫인코딩 해주었다.

그렇게 모델은 RandomForest를 사용하여 예측하였고

RMSE와 R2는 다음과 같이 나왔다.
이 때 첫 제출로 캐글 점수가 13점이 나왔는데

그 후 이상값처리, 인터넷사용률을 인터넷사용률 X 인구수로 바꿔준 후 다시 제출하니

12점 초반대가 나왔다.
더 시도하고 싶었으나.. 제출횟수 5회를 초과해서 더 제출하지 못하고 그만 두었다.

다음에 기회가되면 다시 한 번 도전하자!

0개의 댓글