2021년 7월 29일부터 8월 5일까지, 약 일주일동안 데이터분석 프로젝트를 했다. 대학을 다닐 때는 주제 선정부터 일이었는데 해당 프로젝트에는 비교적 명확한 카테고리 내에서 자율적으로 분석을 해보는 것이라 약간 안도했었다. 왜냐하면 일단 내가 잘 아는 도메인 영역이어서 매우 친숙했기 때문이다. 학부 때 배웠던 게임 콘텐츠와 게임 산업, 그리고 작년에 학회지에 출고한 논문 역시 게임 산업과 관련된 내용이다보니 게임 기획의 경험, 논문을 여러 번 쓰면서 얻게 된 산업에 대한 이해 등이 결합되니 여러가지의 결론이 나올 수 있는 데이터분석에서 비교적 타당한 논리를 갖출 수 있게 되었던 것 같다.
데이터들을 보고 다음 분기에 제작해야하는 게임이 무엇인지 판단하는 프로젝트였다. 여기에서 다음 분기도 정해야하고, 어떤 가설 검증을 할 것인지 등은 스스로 판단해야했기 때문에 지금까지 배웠던 것들을 총 정리해야했다. 평소 복습해두었던 것들이 미미하지만 그래도 빛을 발해주었던 것 같다. 이론을 실제 데이터에 적용하는 것에서 어려움을 느끼긴 했지만 기본적인 이론이 뒷받침 되었기 때문에 아래의 과정에서 기준을 잘 잡을 수 있었던 것 같다.
데이터를 여러 번 분석하는 것보다도 중요한 것은 그 데이터를 통해서 올바른 인사이트를 뽑아내는 것이 아닐까. 데이터들이 어떠한 분포나 성질을 가지고 있는 파악해서 해당 데이터가 어떠한지 살펴보는 과정이었다. 다양한 시각화를 통해 스로가 더 직관적으로 어떤 부분을 판단해야하는지, 어떤 부분이 누락되었는지 파악하면서 도메인 지식을 활용해보는 시간을 가졌다. 분석을 진행할 때 게임 산업의 특성을 고려해서, 히트친 작품이나, 다음 분기까지 도저히 투자할 수 없는 시간과 자본이 들어간 게임은 제외했는데 그에 대한 근거들을 마련서 현실적으로 다음 분기에 출시했을 때 안정적으로 인지도나 출고량을 확보할 수 있는 장르를 선택하자했다.
데이터 탐색을 끝낸 뒤 단위나 날짜 등을 분석에 용이하도록 통일시켜주면서 전처리를 진행하였다. 입력된 단위나 날짜를 데이터나 내가 분석하고자 하는 방향에 알맞게 조정했다. 도메인 지식도 들어갔다. 세계적으로 출고량이 높다는 기준을 어떻게 잡을 것인가 등을 세운 뒤 단위를 통일하고 결측치를 확인해서 없앨 것인지 결측치를 어떻게 채울 것인지 분석하는 등의 시간을 가졌다. 그렇게 해서 찾아보니 제작사라고 나온 퍼블리셔가 틀린 경우도 있어서 난감했지만(예를 들어 동유럽에서 제작한 게임이 아시아 지역 퍼블리셔를 일본 회사로 한 경우 제작사를 일본 회사로 표기한 경우가 있었다.)..배포사와 제작사를 같다고 가정한 데이터인 것 같았고 그 부분까지 수정하려면 하나하나 검토를 해야하는 참사가 일어나기 때문에 데이터에 입력된 값들은 오류가 없다고 가정했다. 이 외에도 내가 속한 제작사가 어느 정도의 개발 역량을 가지고 있는지, 투입할 수 있는 자본이나 시간이 얼마나 되는지도 알았으면 좋았을 것 같다.
파이썬을 이용해서 데이터를 이리저리 뜯어보면서 분석을 진행했다.
다시 점검이 필요하다 생각한 부분은 가설검정 부분이었다. 연속형데이터인지, 정규형을 다르는지, 카테고리형 데이터에는 어떤 가설 검정을 해야한다던지, 실제 가설 검정을 하는 방법을 더 자세히 알아야한다는 생각이 들었다. 방법이나 구현하는 방법 자체는 파이썬이 계산의 대부분을 해주기 때문에 크게 어렵지는 않았지만 분석 함수에 넣기 위해 데이터의 형식을 가다듬는 것과 가설을 세우는 것이 미숙했다.
파이썬은 코드가 실행되지 않는 부분에 대해서는 잘 짚어주는데 해석을 해주지는 않기 때문에 내가 분석을 잘못한 부분을 판단해주지 못한다. 오류를 고치고 다시 분석을 했을 때 값이 다른 것을 보고 내가 세운 가설이 무의미하거나 내가 검증한 방법이 잘못된 것이면 어쩌지하는 생각이 많이 들었다.
밀리언 셀러 분석을 인상깊게 보았습니다. 도메인지식을 활용하여 실제로 개발시간이 오래 걸려 비현실적이라는 지적이 창의적이었습니다.
발표주제와도 어울리고, 다양한 시각화 자료를 활용해서 결론에 도출한 부분도 정말 잘해주신 것 같습니다. 저한테 이 부분이 가장 어려웠는데 많은 참고를 할 수 있게 되었습니다.
결론에서 선택지를 열어놓으셨는데 이 부분도 굉장히 좋은 선택인 것 같습니다. 청중이 데이터 결과를 참고 하고 스스로 방향을 정할 수 있도록 하신게 비데이터 직군에 대한 최고의 배려가 아닌가 싶습니다.
이번 프로젝트에서 주어진 주제와 데이터에 대해 얼마나 자세히 살펴보셨고, 관련 도메인 지식을 알기 위해, 추가적인 시장 조사 등을 어떻게 진행하셨을지, 또한 그와 관련되어, 데이터를 윤수님의 의도에 맞게 알맞은 활용을 했다는 것을 체감할 수 있었습니다. 그리고 이 영상을 보면서 이들을 충분히 느낄 수 있었다는 점에서 전달력 또한 우수하셨다고 저는 생각합니다.
어떤 데이터인지 설명하고 유의시켜주는 부분이 좋았습니다! 개요에 게임시장에 대한 사전설명이 내용을 이해는데 도움이 되었습니다. 말씀하실 때 사용하는 어휘나 문장이 정갈해서 듣기 편합니다. 라디오 듣는 것 같아요.
개요에서 몇개의 장르, 랫폼, 몇년을 분석했는지를 정확하게 짚어주셔서 앞으로 발표할 내용에 대해 처음에 예측할 수 있었어요.! 비전문가가 이해하기에 정말 중요한 부분 잘 짚어주신것 같아요. 특히 모바일게임이 빠졌다는 부분도 잘 짚어주셨어요
그래프 시각화가 두드러지게 좋았습니다.! 피피티로 따로 만드신건지는 모르겠지만, 적은 설명으로도 한눈에 파악이 잘 되었어요.
게임시장에 대해 조사를 많이 하신게 보였습니다. 밀리언셀러에 대해 분석하고 지역별로 차이가 큰것을 일원분산분석으로 결과도출한 점도 인상깊었어요. 그리고 시장경쟁논리까지 도입한 점이 인상깊었습니다.
목소리, 어투 등 전달력이 무난하게 괜찮았어요.
Outlier에 대한 기준을 명확하게 하기 위해 밀리언 셀러 게임 내역을 포괄하는 경우와 포괄하지 않는 경우를 구분해서 설명해주시려고 한 부분이 인상적이었어요.
발표시점을 2016년 하반기로 잡은 점이 인상적이었습니다. 시점을 설정하고 분석한다면 좀 더 명확히 당시 상황을 파악할 수 있는 것 같습니다.
데이터뿐만아니라 데이터와 관련된 2016년 게임 산업 상황을 설명해주시고 북미, 유럽, 일본 시장의 중요성을 언급해줘서 분석 결과가 더 논리적으로 다가왔습니다.
전반적으로 게임 산업과 관련된 많은 지식을 공부하신 것 같았습니다. 그래서 발표 내용이 더 신뢰가 갔습니다.
밀리언셀러 게임 분석이 정말 인상적이었습니다. ‘다음 분기 게임 설계’를 위해 과감히 밀리언셀러 게임을 선택하지 않는 것도 도메인 지식이 뒷받침해줘서 굉장히 논리적이었습니다.
이번 주제에 대한 결론을 짓는데, 윤수님의 접근방식이 나름 굉장히 독특했다고 생각하며, 물론 의도적이긴 하셨을테지만, 만약 가정이 없었다고 생각하면, 주제에 벗어난 발표가 되진 않았을까라는 생각을 잠깐 해보게 되었습니다.
box plot에서 이상치(튄 값)을 제외하고 그렸으면 좀 더 시각적으로 두드러지는 그래프가 되지 않았을까 싶습니다.line plot 한 장에 너무 많은 정보가 들어가 서 그래프가 난해해졌으나, 설명을 덧붙여주셔서 괜찮았습니다....그럼 이건 아쉬운 게 아닌가? 인기-비인기 게임을 나눠서 분석하신 이유에 대한 언급이 없으셔서 아쉬웠습니다.
밀리언셀러 게임은 지역별 차이가 커서 벤치마킹할 자료정도로 활용할 수 있겠다고 앞에서 말씀하셨는데, 바로뒤에서 밀리언 셀러의 역량을 고려하여 자료를 분석하였다고 비중 높게 말씀하셔서 연결이 잘 안되었던것 같습니다. 그리고 30위 게임분석에서 표준편차 그래프? 가 뭘 말하고자 함인지 이해하기 어려웠어요.
마지막 결론이 빠진것같은 느낌이 들어요. 윤수님께서는 이러한 경향성을 보이고 있고 장르에서는, 플랫폼에서는 어떤게 시장에 유리할지에 대해 잘 분석해 주셨는데, 시간이 부족해서인지 전체적인 결론이 없다는 점이 아쉬웠습니다. 차라리 앞에 덜 중요한 부분을 빼고 윤수님만의 결론을 정리해주는 편이 비전공자의 입장에서는 더 속시원한 발표가 될 것 같아요.
일원분산분석에 관해 간략하게 설명이 있다면 비데이터 직군이 이해하는데 도움이 될 것 같습니다.
그래프들이 조금 더 컸으면 더 잘 보여서 이해하는데 도움을 줄 수 있을 것 같습니다.
데이터의 결과 값의 원인이나 이유를 찾는 데 또 다른 가설을 세우기 위해 외부 상황에 미뤄 짐작해보는 것은 좋겠지만 단정적으로 상황을 요약하기에는 다소 리스크가 있지 않을까 싶네요!
일부 타이틀에서 약간 헷갈렸던 내용이 있어 참고 드려요.
예를 들어 '밀리언 셀러 및 장르별 상위 30위 게임 분석' 의 경우 1) 밀리언셀러에 한정된 것인지 아니면 밀리언셀러 수치를 포함한 결과인지? 2) 각 장르에서 30위가 추려진 결과인지 아니면 전체 내역에서 상위 30위 게임을 추렸을 때 확인되는 장르들인지..
비데이터 전문가에게 설명하는 내용으로 고려하셔서 검정법에 대한 설명은 생략하신 것 같아요. 발표 주석을 통해 일원분산분석을 바탕으로 검정하셨다는 점은 참고할 수 있었지만, 해당 내용도 같이 보강이 됐다면 당위성이 더 높게 들릴 수 있을 것 같습니다.
도메인 지식을 적절하게 간추려서 더 설득력있게 발표를 구조화하기
가설을 단정적으로 표현하기다 적확한 표현으로 표현하기
전체적인 결론이 드러나도록 한 페이지에 정리하기
사실을 어떻게 보여줄 것인가, 직관적이면서 정확한 표현으로 납득할 수 있는 결론을 도출하기.
데이터 처리의 미숙함을 앞으로의 실습을 통해 능숙하게 익혀나가기
변수 지정을 더 깔끔하게 하기.