우선 분석이 용이한 데이터를 구한 뒤, 분석의 방향을 잡는 것이 좋다고 판단하였다.
구한 데이터는 다음과 같다.
전자 게임 소프트웨어 유통망인 'steam'의 게임과 유저 리뷰에 관한 데이터
'steam'의 데이터를 통해 판매량을 추정하고 유저 평점을 제공하는 사이트인 'steamspy'의 데이터
다양한 종류의 비디오게임의 플랫폼, 장르, 발매년도, 판매량, 평점 등의 데이터가 포함된 테이블
위의 데이터 중 3번째 테이블이 다양한 플랫폼의 게임이 존재하고 그 외에도 판매량과 발매년도, 평점 등 활용도가 높은 데이터가 포함되어 있어서 분석을 진행하기에 가장 좋을 것 같다.
따라서 3번째 테이블을 활용한 분석을 기획해 보았다.
비지니스 상황은 다음과 같다.
테이블 상세
1980 ~ 2016 기간 내에 발매한 비디오 게임.
제목, 플랫폼, 발매일, 장르, 퍼블리셔, 판매량(북미, 유럽, 일본, 그 외 국가, 글로벌), 메타크리틱 평점, 메타크리틱 평가 수, 유저 평점, 유저 평가 수, 개발사, 연령등급의 데이터가 포함.
NULL값이 상당수 존재하며 User_Score에 문자열(tbd : to be decided)이 들어가있거나 연도가 잘못 표기되어 있는 등 사용 전에 약간의 정제가 필요.
사용할 지표
연도별 총 발매량, 판매량
장르별, 플랫폼별 판매량(SUM or AVG, MIN, MAX)
장르별, 플랫폼별 평점(AVG, MIN, MAX)
연도별 판매량(장르, 플랫폼별)
전체 / 장르별 / 플랫폼별 / 연도별 최다 판매 타이틀 & 최고 평점 타이틀
기타 사항 & 아쉬운 부분
특정 기업이 정해져 있지 않기에 기술력 / 개발 이력 등을 특정할 수 없다.
따라서 오직 트렌드만으로 차기 개발작을 결정하는 분석 방향으로 진행될 예정.
이번 프로젝트는 자유주제인 만큼 색다른 내용을 다루고 싶었는데 분석의 내용이나 주제가 지금까지 하던 분석과 큰 차이가 없어서 아쉽다.