• 2022년 12월 개인적으로 진행했던 토이프로젝트를 재업로드합니다.

9. Conclusion

Logistic Regression과 SVM모델을 사용하여 승리/패배 각 클래스로 분류될 확률을 기대 승률로 간주함으로써 전반전의 세부 스탯으로 2Q 종료 이후 기대 승률을 구할 수 있었습니다. 저는 평소 궁금했던 전반전의 스탯을 이용한 2Q 종료 이후 기대 승률을 계산하는 과정을 직접 구현해보았다는 점에 이 프로젝트의 의의를 두고 싶습니다.

Experiments의 결과로부터, logsitic Regression 모델보다 PCA를 적용한 경우의 RandomForest모델이 경기 결과를 더 잘 예측하고 있음을 알 수 있습니다.

  • Logistic Regression의 평균 예측 정확도 : 0.5426917510853835
  • RandomForest의 평균 예측 정확도 (PCA적용) : 0.5817655571635311

하지만 Logistic Regression과 SVM 모델 모두 승부 예측의 accuracy가 그렇게 높게 나오지 않았습니다. 이는 사실, 본인이 프로젝트를 진행하며 얻고자 했던 결과와 같습니다. 본 프로젝트의 결과는 전반전의 스탯만 가지고는 최종 경기 결과를 잘 예측할 수 없음을 보여주고 있습니다. 당연한 이야기입니다. 스포츠는 끝날 때 까지 끝난게 아니기 때문이죠. 만약 전반전의 경기 내용만 가지고 승부를 잘 예측할 수 있다면 이는 곧 후반전은 할 필요가 없다는 이야기가 됩니다. 하지만 실제 경기에서 전반전이 끝났다는 것은 이제 고작 반이 끝났을 뿐인 것이고, 남은 후반전동안 어떤 일이 벌어질지는 그 누구도 알 수없습니다. 그것이 바로 우리가 스포츠에 열광하는 이유일 것입니다.

그럼에도 불구하고, 예측 정확도가 0.5를 약간 웃도는 값을 가지는 이유는, 전반전이 후반전에도 영향을 미칠 수 있기 때문으로 보입니다. 전반전의 세부 스탯에는 흔히들 '슛감' 이라고 말하는 것과 같은 선수들의 컨디션이 반영되었을 것이고, 그러한 컨디션은 후반에도 이어질 가능성이 높기 때문입니다.

이러한 점에서 착안하여, 반대로 후반전의 데이터만 가지고 같은 방식으로 승부 예측을 진행해보는 것도 좋을 듯 합니다. 해당 결과와 본 프로젝트의 결과를 비교해 본다면 전반전의 스탯과 후반전의 스탯 중 어느것이 승부에 더 영향을 많이 미칠지도 추론해 볼 수 있을 것으로 보입니다.

또 본 프로젝트에는 몇가지 아쉬운 점이 존재합니다. 추후 아래와 같은 아쉬운 점들을 보완하여 더 좋은 프로젝트로 발전시키고자 합니다.

  • 시간상의 문제로 좀 더 많은 데이터를 수집하지 못했습니다. 분석에 사용하는 feature의 갯수에 비해 데이터의 수가 적습니다. 이에, 추가적으로 데이터를 수집하여 같은 분석을 진행해보면 좋을 듯 합니다.
  • 시즌을 나타내는 feature가 없어 해당 경기가 어떤 시즌에 진행된 경기인지가 반영되지 않았습니다.
  • 경기를 치르는 팀에 대한 정보가 반영되지 않았습니다. 앞서 Feature Engineering에서 기술한 이유 외에도, 각 (홈 팀, 원정 팀) 순서쌍에 대한 경기 데이터가 충분하지 않다는 이유 때문에 Team feature를 삭제했습니다. 하지만 각 팀들 사이에는 분명히 상대 전적이 존재하고, 눈에 보이지는 않지만 '상성'이라는 것이 존재합니다. 따라서 보다 많은 데이터를 수집함으로써 경기를 치르는 팀들의 관계나 팀별 특성까지 반영할 수 있다면 보다 좋은 프로젝트가 될 것이라고 생각합니다.

해당 프로젝트에 대한 주피터노트북을 깃허브 https://github.com/seodalzzz/NBA_analysis.git 에 업로드해두었습니다.

읽어주셔서 감사합니다.

0개의 댓글