게임 회사의 데이터 팀에 합류했습니다.
'다음 분기에 어떤 게임을 설계해야 할까'
라는 고민을 해결하기 위해, 기존의 데이터에 기반하여 인사이트를 얻고, 의사결정을 하고자 하는 것이 목표입니다.
지역은 어떻게 구분할지 판단
지역별로 선호하는 게임의 장르를 파악
트렌드는 어떤 것을 기준으로 파악해야 하는가
연도별로 트렌드가 존재하는가
인기가 많다는 것을 어떻게 정의해야 하는가
해당 게임이 왜 인기가 많다고 생각했는가
시각화를 통해 무엇을 나타내고자 하는지
Name : 게임의 이름입니다.(object)
Platform : 게임이 지원되는 플랫폼의 이름입니다.(object)
Year : 게임이 출시된 연도입니다. (int)
Genre : 게임의 장르입니다.(object)
Publisher : 게임을 배급한 회사입니다.(object)
NA_Sales : 북미지역에서의 출고량입니다.(float)
EU_Sales : 유럽지역에서의 출고량입니다.(float)
JP_Sales : 일본지역에서의 출고량입니다.(float)
Other_Sales : 기타지역에서의 출고량입니다.(float)
위와 같이 데이터 프레임 내 항목들을 재정의
결측치를 우선 제거한 후 이상치를 확인할 예정
비즈니스 인사이트 목표는 '다음 분기에 어떤 게임을 설계해야 하는가' 에 대한 결론을 내야 하므로
Name, platform, Genre, year
위 4개 컬럼은 인사이트 목표를 도출하는데 필요한 키값이며 특정 값으로 대체 불가능하기에 없으면 삭제하도록 결정
df_nan_all = df[df.isnull().any(axis=1)]
df_nan_all # 357개 데이터에서 nan 이 확인
print(df[df['Name'].isnull()]) # Name 은 없음
print(df[df['Platform'].isnull()]) # Platform 은 없음
print(df[df['Genre'].isnull()])
print(df['Genre'].isnull().sum()) # 50 개 검출
print(df[df['Year'].isnull()]) # 271 개 검출
df = df.dropna(subset=['Genre'])
df = df.dropna(subset=['Year'])
df_nan_del = df
df['Publisher'] = df['Publisher'].fillna('Unknown')
df[df.isnull().any(axis=1)]
import numpy as np
Platform_counts = df['Platform'].value_counts()
print(Platform_counts)
# Platform 이상치 이상없음 #
Year_counts = df['Year'].value_counts()
print(Year_counts)
df.drop(df[df['Year'] <= 1979].index, inplace=True)
북미
유럽
일본
그외
일본을 제외한 지역에서는 엑션 장르가 가장 많이 팔렸다.
지역마다 선호 장르가 다르다는 것은 확인
시각화를 통해 지역마다 선호장르가 다르다는 것은 확인했으나 신뢰성을 위해 통계적 검증을 실시했다.
카이 제곱 검정을 실시하여 귀무가설, 대립가설에 대한 검증을 시작
귀무가설 : 지역마다 선호하는 장르가 같다.
대립가설 : 지역마다 선호하는 장르가 다르다.
* 카이 제곱 검정이란?
범주형 변수 간의 연관성을 분석하는 검정 방법 중 하나입니다.
이 검정은 관찰된 빈도와 기대 빈도 사이의 차이가 우연적인지 아니면 진짜 연관성이 있는지를 확인하는데 사용됩니다.
이와 같이 카이제곱 검정을 통해 지역마다 선호하는 장르가 다르다는 점을 입증했다.
- 연도별 장르의 수와 출고량 : 연도별로 한해 가장 잘팔린 장르는 무엇인지(막대)
-장르 출시 기준으로 봤을 경우 엑션 장르가 2000년대 부터 강세를 보인다.-판매량 기준으로 봤을 경우 스포츠 장르도 2000년대에 높은 판매량을 기록한다.
- 연도별 플랫폼 : 연도별로 플랫폼 출시 비율 변화(선형)
-2010~2015년을 기점으로 하여 DS,Wii,X360등 전통적인 강세였던 플랫폼들이 감소세에 있으며 급격한 성장 그래프를 보인 ps4의 수요가 늘어나고 있다.
위 시각화 자료를 통해 2000년대 시점을 기반으로 스포츠 -> 엑션 장르로 장르 변화가 확인되었고
플랫폼의 경우, PS4의 수요가 늘어가고 있음을 확인 할 수 있었다.
엑션 장르 트랜드 중 가장 많이 팔린 타이틀이 인기 있는 게임이라고 가정하였다.
2010년 이후 주류가 된 엑션 장르와 플랫폼 형태가 일치한 것으로 추측
*지역별 엑션 장르 판매비율
향후 게임 트렌드를 봤을 때 PS4 기반의 Action 게임을 만들어야 하는 것이 맞으나 해당 게임은 상당한 자본이 투자된 게임이므로 규모가 크지 않는 게임 회사는 수행하기가 어려울 수 있음
역대 게임 중 판매량이 가장 높았던 게임의 특성을 확인하여 현재 트렌드 플랫폼과 결합시키면 어떨까 라는 생각에서 추가로 진행
장르에 상관없이 가장 많이 판매된 게임을 확인한 결과, 장르가 스포츠이면서, 기종은 Wii, 명칭은 Wii Sports
해당 게임은 웨어러블 기기를 착용하여 실제 운동 동작을 모션 인식하여 게임을 즐기는 형식이고 게임 대상층도 전연령대 입니다.
연도별 판매, 출시 그래프를 보더라도 스포츠 장르도 상위를 차지하며 스포츠 장르의 지역별 판매 비율도 유럽에서 높은 것으로 보아 두번째 대안으로, 기종은 PS4, 장르는 스포츠로 하여 유럽 지역에 출시도 고려해볼 사항이라 생각합니다.