Big Data Derby 2022

kimjunwoo·2022년 9월 29일

kaggle 캐글

Kaggle

목록 보기

1/1

Big data 2022에 관해 살펴볼 예정이다.

이 competition은 경마 관련 데이터를 이용해 어느 말이 우승할지 예측하는 competition이다.

우선 데이터셋을 살펴보자.
네가지 종류의 데이터로 이루어져 있는데

첫번째는 말과 기수의 상관관계에 대한 데이터이다.

두번째 데이터셋은 트랙의 정보에 관한 데이터이다. 트랙의 condition, 트랙의 종류 등등에 대한 정보가 담겨있다.

세번째는 레이스 도중 말의 이동을 추적하는 데이터이다. 말의 위도와 경도를 표시하여 위치를 알려준다.

마지막은 위위 세가지 데이터를 하나의 표에 합친 데이터이다.

그 다음에는 각 데이터셋마다 어떤 항목들을 가지고 있는지 살펴보자.
전부 다 살펴보지는 않을 예정이고 경마에 관한 지식이 전무했던 내가 이해가 잘 되지 않았던 것만 적을 예정이다.

track_id : 트랙이 어디에 위치해 있는지
race_data : race가 열린 날짜를 의미한다.
weight_carried : 말이 레이스 도중 지고 있는 총 무게 (아마 기수 몸무게 + 각종 장비들의 무게를 의미하는 듯하다.)
jockey : 말을 타는 기수의 이름이다.
odds : 배당률을 의미하는 듯 하다 (참고자료)
이 데이터셋에서 1280으로 적혀 있으면 12.8-1을 의미한다고 나와있는데 12.8-1이란 1달러를 걸었을때 12.8달러의 이득을 본다는 것이다. 즉, 1달러를 걸어서 이기면 12.8(수익) + 1(베팅금액) = 13.8 달러를 받게 된다.
position_at_finish : 말이 끝나는 포지션...? 아마 최종 등수를 이야기하는 듯 하다.

distance_id : 레이스 총 거리를 의미하는데 furlong이라는 단위로 되어있다. 1 furlong = 1/8 mile = 약 200m 정도이다.

run_up-distance : 문에서 레이스 시작하는 지점까지의 거리

race_type : 레이스의 종류. 다만 레이스의 종류가 무얼 의미하는지를 모르겠다. 검색해보면 좀 나오기는 하는데 그래도 잘 이해가 되지 않는다.

purse : 상금 배분율 ex) 1등에게는 총상금의 60퍼 2등에게는 30퍼 3등에게는 10퍼

latitude : 위도
longitude : 경도

위의 데이터를 모두 합친것이라 따로 설명할 것이 없다.

데이터셋을 살펴보았으니 다음은 다른 사람들의 코드를 조금 참조해서 보통 어떤 방식으로 유추하는지 알아보려고 한다.

https://www.kaggle.com/code/bhatnagardaksh/big-data-derby-clustering-pca-classification

추천을 20개 이상 받은 code만 골라서 좀 살펴보았는데 clustering, pca를 이용한 것이 가장 눈길을 끌어 이 코드를 집중적으로 살펴보게 되었다.

kimjunwoo

Big Data Derby 2022

Kaggle

0개의 댓글