Logistic Regression과 SVM모델을 사용하여 승리/패배 각 클래스로 분류될 확률을 기대 승률로 간주함으로써 전반전의 세부 스탯으로 2Q 종료 이후 기대 승률을 구할 수 있었습니다. 저는 평소 궁금했던 전반전의 스탯을 이용한 2Q 종료 이후 기대 승률을 계산하는 과정을 직접 구현해보았다는 점에 이 프로젝트의 의의를 두고 싶습니다.
Experiments의 결과로부터, logsitic Regression 모델보다 PCA를 적용한 경우의 RandomForest모델이 경기 결과를 더 잘 예측하고 있음을 알 수 있습니다.
하지만 Logistic Regression과 SVM 모델 모두 승부 예측의 accuracy가 그렇게 높게 나오지 않았습니다. 이는 사실, 본인이 프로젝트를 진행하며 얻고자 했던 결과와 같습니다. 본 프로젝트의 결과는 전반전의 스탯만 가지고는 최종 경기 결과를 잘 예측할 수 없음을 보여주고 있습니다. 당연한 이야기입니다. 스포츠는 끝날 때 까지 끝난게 아니기 때문이죠. 만약 전반전의 경기 내용만 가지고 승부를 잘 예측할 수 있다면 이는 곧 후반전은 할 필요가 없다는 이야기가 됩니다. 하지만 실제 경기에서 전반전이 끝났다는 것은 이제 고작 반이 끝났을 뿐인 것이고, 남은 후반전동안 어떤 일이 벌어질지는 그 누구도 알 수없습니다. 그것이 바로 우리가 스포츠에 열광하는 이유일 것입니다.
그럼에도 불구하고, 예측 정확도가 0.5를 약간 웃도는 값을 가지는 이유는, 전반전이 후반전에도 영향을 미칠 수 있기 때문으로 보입니다. 전반전의 세부 스탯에는 흔히들 '슛감' 이라고 말하는 것과 같은 선수들의 컨디션이 반영되었을 것이고, 그러한 컨디션은 후반에도 이어질 가능성이 높기 때문입니다.
이러한 점에서 착안하여, 반대로 후반전의 데이터만 가지고 같은 방식으로 승부 예측을 진행해보는 것도 좋을 듯 합니다. 해당 결과와 본 프로젝트의 결과를 비교해 본다면 전반전의 스탯과 후반전의 스탯 중 어느것이 승부에 더 영향을 많이 미칠지도 추론해 볼 수 있을 것으로 보입니다.
또 본 프로젝트에는 몇가지 아쉬운 점이 존재합니다. 추후 아래와 같은 아쉬운 점들을 보완하여 더 좋은 프로젝트로 발전시키고자 합니다.
해당 프로젝트에 대한 주피터노트북을 깃허브 https://github.com/seodalzzz/NBA_analysis.git 에 업로드해두었습니다.
읽어주셔서 감사합니다.