데이터사이언스_Worldcup_승부예측_프로젝트 (2)

임정민·2022년 11월 26일
2

프로젝트

목록 보기
5/33
post-thumbnail

Dataframe , Matplotlib 을 활용한 데이터사이언스 프로젝트입니다.

  • 데이터사이언스Worldcup승부예측_프로젝트 (1) 에 이어 발표 PPT 및 설명입니다.

발표 PPT 및 설명

안녕하십니까
저는 진솔님, 율님, 다나님 그리고 제가 속한 6조 발표를 맡게 된 임정민입니다. 바로 발표 진행하겠습니다.

저희 조의 이번 데이터 시각화 프로젝트 주제는 현재 진행하고 있는 월드컵 조별리그 예측 모델 시각화입니다.

목차입니다. 순서대로 가설 설정, 접근방법, 데이터 소개, 모델 소개, 예측값 표현, 정확도 검토입니다.

조가 짜여진 첫날에 분야를 막론한 다양한 키워드들을 얘기하며 정하게 되었는데요. 전기차, 스마트팜,월드컵, 어떤 한 논문에 대한 검증하는 주제 등 여러가지가 있었지만 그중에서도 화제성이나 내일 우리나라 경기가 있기 때문에 재미적인 요소 측면까지 고려하여 월드컵을 주제로 선정하게 되었습니다.


저희가 생각하는 핵심 가설은 두가지입니다. 첫번째로 FIFA에서 제공하는 rating(전투력)이 의미가 있는 지표인가? 이를 검증하고자 하였구요. 두번째로 신빙성있는 지표라고 한다면 이를 기반으로 현재 진행되고 있는 월드컵의 성적 특히 대한민국의 미래는 어떻게 될지 예측을 해보자 라는 것입니다.

접근 방법입니다.
Step1. 월드컵이 열리기 직전 월의 rating 데이터를 확보하였습니다.
Step2. 확보한 데이터를 Elo rating 공식에 넣어 1000~10000개의 표본 데이터들을 산출했습니다.
Stpe3. 산출된 데이터들을 시각화하여 과거를 분석하고 미래를 예측했습니다.

먼저 rating에 대한 개념입니다. Arpad Emrick Elo 라는 물리학 교수가 고안한 플레이어들의 실력을 표현하는 지표입니다. 본래 체스 선수간 우위를 알아보기 위해 고안한 방식이지만 이외 팀스포츠 , 컴퓨터 게임 분야에서도 자주 사용하고 있습니다. 두 팀간의 rating을 통해 각 팀별 승리 확률을 구할 있으며 이를 활용하여 월드컵 참가팀별 16강 진출 확률을 산출하였습니다.

예를 들어 보시는 바와 같이 대한민국과 아르헨티나가 경기를 진행한다고 하였을 때 1786점의 대한민국과 2143점의 아르헨티나의 승률은 각각 11% , 89% 입니다. 또한 승리 혹은 패시 시 rating 차이에 비례한 점수가 상승 혹은 하락합니다.


다음으로 데이터 전처리-모델-표본-확률-시각화에 대한 과정입니다.

일단 제가 배포해드린 알집파일 압축해제 하시면 되겠습니다.
제가 드린 파일은 4개 월드컵별 축적된 데이터와 실제로 여러분들이 표본을 구할 수 있는 코드 전부 드린거고 실제로 같이 코드 설명드리면서 새로운 표본 구해볼껍니다.


(시현 중)

이러한 방식으로 수집한 월드컵 참가국 rating을 통해 16강 진출 확률을 산출할 수 있습니다. 다음으로 이 알고리즘을 통해 과거를 분석하고 미래를 예측해보겠습니다.


우리나라의 월드컵 진출 연도별 rating입니다. 올해 2022년은 1786점으로 16강 진출에 성공한 2010년보다 우위 또 최고점 2018년 1800점과 크게 차이나지 않는 실력으로 기대를 걸어볼만한 시기입니다.

저희 알고리즘에 기반한 2018년 러시아 월드컵 분석 결과입니다. 93.75%의 정확도로 16강 진출 팀 예측에 성공하였습니다. 또한 각 팀별 16강 진출확률을 지표화 하였을 때 압도적으로 높은 16강 진출확률을 가진 팀들 중에서 월드컵 우승을 거머쥐었고 해당 연도 우승팀은 보시는 바와 같이 프랑스입니다. 이때 당시우리나라는 평균치에 수렴하는 16강 진출 확률을 가지고 있습니다.

2014년 브라질 월드컵 분석 결과입니다. 16강 진출 팀 예측 정확도는 68.75%로 이변이 많은 월드컵임을 알 수 있었습니다. 우리나라 기준으로는 같은 조 내의 벨기에, 알제리, 러시아 등의 비교적 높은 rating 차이들 가진 팀들로 인해 매우 저조한 확률을 보이고 있었습니다. 해당 연도 우승팀은 독일로 앞서 말씀드린 바와 같이 압도적으로 16강 진출한 팀들 중에서 우승국가가 나왔습니다.

2010년 남아공 월드컵 분석결과입니다. 16강 진출 팀 예측 정확도는 81.25%로 준수한 결과였습니다. 우리나라는 아르헨티나를 정도만 제외하면 나이지리아,그리스 등 해볼만한 팀들과 조편성 되어 평균치에 가까운 진출 확률을 가지고 있었습니다. 또한 해당 연도 우승팀은 95% 이상의 16강 진출 확률을 가진 팀들 중에서 우승을 가져갔다는 것을 알 수 있었습니다.

이와 같이 rating 승리 확률 공식을 기반으로한 저희 16강 진출 확률 알고리즘은 3번의 월드컵 결과 기준으로 81.25%의 정확도를 가지고 있습니다. 이를 토대로 올해 2022년 우리나라가 속한 H조의 팀별 16강 진출확률을 보여드리면 다음과 같습니다.

2022년 H조 16강 진출 확률입니다. 포르투칼, 우루과이 등 전통 강팀들은 각 90% , 80%의 진출 확률을 나타내고 우리나라는 26%의 저조한 16강 진출 확률이 나타납니다. 이러한 결과는 상대적으로 큰 rating의 결과라고 볼 수 있습니다. 이어서 2022년 월드컵 참가국 전체 예측 결과를 보여드리겠습니다.

카타르 월드컵 조별리그 예측 결과입니다. 우리나라가 속한 H조는 포르투칼,우루과이가 예상한 대로 16강에 진출했으며 월드컵 참가국 중 아르헨티나, 브라질, 네덜란드, 포르투칼 등이 압도적으로 16강 진출에 성공할 것을 예측되고 과거 우승팀 경향에 따라 이 팀들 중에서 우승팀이 나올 것으로 예상됩니다.
(월드컵이 종료된 지금 실제로 아르헨티나가 우승했습니다!!!) 여기까지가 저희가 준비한 프로젝트 내용입니다.

결론적으로 저희조가 진행한 프로젝트는 월드컵을 주제로 데이터를 전처리하고 직접 구현한 모델에 넣어 도출된 결과값을 시각화하는 데이터사이언스의 역할을 경험해보았고 데이터를 통해 과거를 분석하고 미래를 예측하는 프로젝트를 진행해보았습니다.

마지막으로 내일 10시에 우루과이와 경기가 있는데 저희가 계산한 우리나라 승리확률은 21% 정도 되지만 어제 사우디아라비아가 아르헨티나를 이긴 것처럼 혹시 모를 변수가 발생할 지도 모르니 응원하면서 즐겨보시면 되겠습니다. 발표 마치겠습니다 .감사합니다.

profile
https://github.com/min731

0개의 댓글