AIB18_Section1_PJT

ysk1230·2023년 9월 15일
0
post-custom-banner

AIB18_Section1_PJT


프로젝트 기간 : 2023.03.08 ~ 2023.03.13

프로젝트 도구 : Google Colab

사용언어 : Python

시각화 : https://public.tableau.com/app/profile/youngseok.kim/viz/_16994361049060/1


프로젝트명 : 게임 제작 분기 계획


프로젝트 배경

게임 회사의 데이터 팀에 합류했습니다.
'다음 분기에 어떤 게임을 설계해야 할까'
라는 고민을 해결하기 위해, 기존의 데이터에 기반하여 인사이트를 얻고, 의사결정을 하고자 하는 것이 목표입니다.

프로젝트 개요

1. 지역에 따라서 선호하는 게임 장르가 다를까?

지역은 어떻게 구분할지 판단
지역별로 선호하는 게임의 장르를 파악

2. 연도별 게임의 트렌드가 있을까?

트렌드는 어떤 것을 기준으로 파악해야 하는가
연도별로 트렌드가 존재하는가

3. 인기가 많은 게임에 대한 분석 및 시각화 프로세스

인기가 많다는 것을 어떻게 정의해야 하는가
해당 게임이 왜 인기가 많다고 생각했는가
시각화를 통해 무엇을 나타내고자 하는지

4. 다음 분기에 어떤 게임을 설계해야 하는지에 대한 결론이 제시

프로젝트 기술스택

  • 전처리 및 시각화
    • Python(Pandas, matplotlib)
  • Tools
    • Google Colab

프로젝트 진행과정

  • 1980년도부터 2020년까지 출시된 게임의 지역별, 연도별 판매량 데이터를 구글 코랩을 이용하여 호출
  • 구글 코랩을 통해 사전 전처리 작업 진행
  • 전처리 완료한 데이터를 기반으로 지역별 선호 장르, 연도별 게임 트랜드 등을 분석
  • 분석 데이터 시각화

프로젝트 흐름도

프로젝트 구현내용

1.데이터 전처리

* Data Description

Name : 게임의 이름입니다.(object)
Platform : 게임이 지원되는 플랫폼의 이름입니다.(object)
Year : 게임이 출시된 연도입니다. (int)
Genre : 게임의 장르입니다.(object)
Publisher : 게임을 배급한 회사입니다.(object)
NA_Sales : 북미지역에서의 출고량입니다.(float)
EU_Sales : 유럽지역에서의 출고량입니다.(float)
JP_Sales : 일본지역에서의 출고량입니다.(float)
Other_Sales : 기타지역에서의 출고량입니다.(float)

위와 같이 데이터 프레임 내 항목들을 재정의
결측치를 우선 제거한 후 이상치를 확인할 예정

* 결측치 제거

비즈니스 인사이트 목표는 '다음 분기에 어떤 게임을 설계해야 하는가' 에 대한 결론을 내야 하므로
Name, platform, Genre, year
위 4개 컬럼은 인사이트 목표를 도출하는데 필요한 키값이며 특정 값으로 대체 불가능하기에 없으면 삭제하도록 결정

결측 데이터 확인, 모든 열에서 하나의 결측치라도 존재할 경우

df_nan_all = df[df.isnull().any(axis=1)]
df_nan_all # 357개 데이터에서 nan 이 확인 

Name

print(df[df['Name'].isnull()]) # Name 은 없음

Platform

print(df[df['Platform'].isnull()]) # Platform 은 없음

Genre

print(df[df['Genre'].isnull()]) 
print(df['Genre'].isnull().sum()) # 50 개 검출

Year

print(df[df['Year'].isnull()]) # 271 개 검출

321개를 삭제할 예정

df = df.dropna(subset=['Genre'])
df = df.dropna(subset=['Year'])

16598 - 16277 = 321 개 삭제 완료

이상치 제거 전 nan 값 제거 백업

df_nan_del = df

Publisher Nan 값 확인,

Publisher 는 인사이트 도출에 크게 영향을 미치지 않기에 Unknown 으로 대체

df['Publisher'] = df['Publisher'].fillna('Unknown')
df[df.isnull().any(axis=1)]

* 이상치 제거

  • Platform,Year, Genre, Publisher의 이상치 확인
  • 판대 데이터에서 숫자가 아닌 문자열 확인하기

Platform 이상치 확인

import numpy as np
Platform_counts = df['Platform'].value_counts()
print(Platform_counts)
# Platform 이상치 이상없음 # 

Year 이상치 확인

Year_counts = df['Year'].value_counts()
print(Year_counts)

이상치 발견 연도가 이상한 데이터 발견

추가확인, describe를 사용하여 25% 이하 수치가 2003인 것을 확인, 2003 기준으로 그 이하 데이터 중 연도가 이상한 데이터 추출

1980년 아래로 이상치 임을 확인 후 제거

df.drop(df[df['Year'] <= 1979].index, inplace=True)

2. 인사이트 도출

1. 지역별로 선호하는 장르가 다른가?

1). 시각화를 통한 지역별 선호 장르 분석

북미

유럽

일본

그외

일본을 제외한 지역에서는 엑션 장르가 가장 많이 팔렸다.
지역마다 선호 장르가 다르다는 것은 확인

2). 가설 검정을 통한 지역별 선호 장르 확인

시각화를 통해 지역마다 선호장르가 다르다는 것은 확인했으나 신뢰성을 위해 통계적 검증을 실시했다.

카이 제곱 검정을 실시하여 귀무가설, 대립가설에 대한 검증을 시작
귀무가설 : 지역마다 선호하는 장르가 같다.
대립가설 : 지역마다 선호하는 장르가 다르다.

* 카이 제곱 검정이란?
범주형 변수 간의 연관성을 분석하는 검정 방법 중 하나입니다. 
이 검정은 관찰된 빈도와 기대 빈도 사이의 차이가 우연적인지 아니면 진짜 연관성이 있는지를 확인하는데 사용됩니다.

이와 같이 카이제곱 검정을 통해 지역마다 선호하는 장르가 다르다는 점을 입증했다.

2. 연도별 게임 트렌드가 있는가?

1). 트렌드는 어떤 것을 기준으로 파악했는가

  • 연도별 장르의 수와 출고량 : 연도별로 한해 가장 잘팔린 장르는 무엇인지(막대)
    -장르 출시 기준으로 봤을 경우 엑션 장르가 2000년대 부터 강세를 보인다.

-판매량 기준으로 봤을 경우 스포츠 장르도 2000년대에 높은 판매량을 기록한다.

  • 연도별 플랫폼 : 연도별로 플랫폼 출시 비율 변화(선형)
    -2010~2015년을 기점으로 하여 DS,Wii,X360등 전통적인 강세였던 플랫폼들이 감소세에 있으며 급격한 성장 그래프를 보인 ps4의 수요가 늘어나고 있다.

2). 연도별로 트렌드가 존재하는가

위 시각화 자료를 통해 2000년대 시점을 기반으로 스포츠 -> 엑션 장르로 장르 변화가 확인되었고
플랫폼의 경우, PS4의 수요가 늘어가고 있음을 확인 할 수 있었다.

3. 인기가 많은 게임에 대한 분석 및 시각화

1). 인기가 많다는 것을 어떻게 정의했는지

엑션 장르 트랜드 중 가장 많이 팔린 타이틀이 인기 있는 게임이라고 가정하였다.
2010년 이후 주류가 된 엑션 장르와 플랫폼 형태가 일치한 것으로 추측

*지역별 엑션 장르 판매비율

2). 시각화를 통해 무엇을 나타내고자 하는지를 고려하여 추가적인 EDA 진행(Sales_sum)

4. 다음 분기에 어떤 게임을 설계 해야 하는지에 대한 결론

5. 추가 사항

향후 게임 트렌드를 봤을 때 PS4 기반의 Action 게임을 만들어야 하는 것이 맞으나 해당 게임은 상당한 자본이 투자된 게임이므로 규모가 크지 않는 게임 회사는 수행하기가 어려울 수 있음
역대 게임 중 판매량이 가장 높았던 게임의 특성을 확인하여 현재 트렌드 플랫폼과 결합시키면 어떨까 라는 생각에서 추가로 진행

장르에 상관없이 가장 많이 판매된 게임을 확인한 결과, 장르가 스포츠이면서, 기종은 Wii, 명칭은 Wii Sports
해당 게임은 웨어러블 기기를 착용하여 실제 운동 동작을 모션 인식하여 게임을 즐기는 형식이고 게임 대상층도 전연령대 입니다.


연도별 판매, 출시 그래프를 보더라도 스포츠 장르도 상위를 차지하며 스포츠 장르의 지역별 판매 비율도 유럽에서 높은 것으로 보아 두번째 대안으로, 기종은 PS4, 장르는 스포츠로 하여 유럽 지역에 출시도 고려해볼 사항이라 생각합니다.

post-custom-banner

0개의 댓글