ML Project1(개요, 주제, 데이터, 전처리, EDA)

Theo Kim·2023년 1월 14일
0

개요

국내 개봉작의 각종 특징을 기반으로 앞으로 국내에서 개봉할 영화의 매출액을 예측하기

'자전차왕 엄복동' 이라는 영화에 대해 들어보았는가? 150억의 제작비로 월드박스오피스 13억 남짓한 매출을 올린 비운의 영화다. 만양 엄복동처럼 한마디로 "망했다"라 평가받는 영화를, 봉준호 감독처럼 세계적으로 유명한 감독이 제작하였다면, 저렇게까지 망할 수 있었을까? 라는 상상에서 우리의 프로젝트는 출발하게 되었다.


주제

  • 2019년 말부터 시작된 코로나19 팬데믹으로 인해 영화 산업은 1/4 수준으로 급감

  • 또한, 한국 영화시장에서 제작되는 편수는 줄은 경향이 있으나, 총제작비는 해가 갈수록 증가 --> 영화 제작자 & 투자자에게 매출액은 생사를 결정하는 중요한 요소

  • 국내에서 개봉한 영화들의 각종 특징들을 뜯어보고, 회귀모델들을 이요한 머신러닝으로 앞으로 개봉할 영화들의 매출액을 예측하고자 함

데이터

KOBIS

  • KOBIS 연도별 박스오피스 페이지에서 2007년부터 2021년 총 15년간의 각 연도별 박스오피스 순위 top 150 영화의 데이터 다운

  • 컬럼명: 순위, 영화명, 개봉일, 매출액, 매출액 점유율, 관객수, 스크린수, 상영횟수, 대표국적, 국적, 배급사

Selenium, BeautifulSoup


  • 2007년부터 2021년 총 15년의 데이터를 1인당 3년치씩 분배하여 크롤링

  • 네이버 검색창에서 영화명을 검색 후 해당 연령등급, 장르, 러닝타임

  • 감독/출연 탭에서 해당 영화의 감독명, 참여작수 크롤링을 통해 더욱 많은 컬럼 확보

최종 데이터프레임


전처리

영화명

  • 재개봉, 연말에 개봉으로 인해 중복되는 영화명 --> 영화명, 감독이 동일하면 매출액을 합산해 하나로 병합

감독

  • 감독의 경우 2000개의 데이터 중 약1200개 의 중복되지 않은 값에서, BBC 선정 100대 영화의 감독과 역대 박스오피스 500위에 해당하는 감독들에겐 1, 그외 감독들은 0을 부여

배급사

  • 2019년 영화 배급사 top 100위에 해당하는 값은 1, 그외의 값을 0으로 처리

개봉월

  • 3, 4, 5 / 6, 7, 8 / 9, 10, 11 / 12, 1, 2월 총 넷으로 분류하여 봄 / 여름 / 가을 / 겨울로 이루어진 계절이라는 새로운 변수 생성

이상치

  • IQR 방식으로 이상치를 조회하여 제거하니 2093개의 데이터 중 200개 가량이 이상치로 포착되었는데,

  • 이상치를 포함한 경우와 제거한 경우의 각 컬럼과 매출액의 상관관계를 살펴 본 결과, 제거 후, 오히려 종속변수인 매출액과 독립변수들간의 상관관계가 약해짐을 확인,

  • 회의를 통해 데이터를 하나라도 많이 가져가기를 지향,

  • 이상치 제거 없이 진행

EDA

장르별 영화 갯수 & 장르별 평균 매출액

  • 액션과 드라마가 각각 21%, 16.6%로 1,2위에 랭크, 예상외로 애니메이션이 3위 16.5%로 타 장르 대비 높은 상위권

  • 하지만, 장르별 평균 매출액을 분석해본 결과, 액션은 1위로 동일하였으나, 드라마는 6위, 애니메이션은 12위에 랭크

  • 영화 갯수 상위권에 랭크되어도, 매출액과는 큰 연관성을 띄지 않는다는 것을 확인

범주형 변수: 장르

  • 장르는 액션외에는 매출액에 큰 영향을 주지 않는다는 것을 확인

계절별 영화 개봉 갯수 비율 & 계절별 평균 매출액

  • 겨울, 여름, 봄, 가을 순으로 겨울이 가장 많음

  • 특정 계절에서 뚜렷하게 많은 영화 개봉 갯수는 찾아보기 힘듬

  • 하지만, 계절별 평균 매출액을 분석해본 결과, 여름에 개봉한 영화들이 타 계절과 비교하여 뚜렷하게 높은 매출액을 보임

  • 여름이라는 변수가 영화 매출액에 어느 정도의 영향을 줄 수도 있겠구나라는 가능성을 봄

코로나 전후 매출액 평균

  • 코로나 전 여름 매출액은 평균 약 129억, 코로나 후 매출액은 평균 약 58억으로, 45%나 매출액이 감소했다는 것을 확인

  • 그럼에도 불구하고 변함없이 타 계절 대비 여름이 가장 매출액이 높은 계절이라는 것을 확인

범주형 변수: 연령등급

  • 12세 관람가가 0.14로 타 등급 대비 매출액에 어느 정도 영향을 주는 등급이라는 것을 확인

범주형 변수: 제작 국가

  • 한국 영화가 타 국가에 비해 유일하게 양적 선형관계를 보임, 매출액에 어느 정도의 영향을 줄 수도 있겠구나라는 가능성을 봄

  • 그러나, 한국인들이 자주 접하는 미국 영화가 -0.04로 음적 선형관계를 띄고 있는 것을 확인

제작 국가(한국 vs 미국) 비교

  • 2번째 그래프에서, 개봉 작품 갯수가 한국이 779개, 미국이 998개로 미국 작품이 한국에서 많이 개봉하고 있다는 것을 확인

  • 하지만, 1번째 그래프인 평균 매출액에서, 한국 영화가 127억, 미국 영화가 85억으로, 한국 영화가 약 67% 더 많음

  • 3번째 그래프인 작품 1개당 평균 매출액 그래프는, 각각 1600만, 800만으로, 거의 2배가 차이난다는 것을 확인

  • 또한, 평균 스크린수도 한국이 643개, 미국이 550개로, 이를 전부 종합해서 보면, 미국 영화는 개봉된 작품의 수는 많으나, 한국의 스크린 쿼터제도라는 법으로 인한 외국 영화의 스크린수 한계, 그리고 영화 전체 매출액의 평균인 90억보다 낮은 미국영화의 평균 매출액으로 인해, 단지 미국 영화라는 이유로 매출액이 높다고 볼 수 없음

  • 이러한 이유들로 인해, 미국영화와 매출액 간의 상관관계가 크지 않았음을 확인

연속형 변수 상관관계 확인

  • 관객수와 상영횟수는 각각 0.99, 0.91로 매출액과 상당히 높은 관계를 가지고 있음을 확인 (당연한 사실)

매출액과 관객수, 매출액과 상영횟수의 산점도 & 선형회귀선

  • 관객수 대비 월등하게 높은 몇몇 영화의 매출액을 제외하곤, 매출액과 관객수는 거의 동일한 관계를 가지고 있음

  • 상영횟수도 매출액이 그리 크지 않은 경우도 있으나, 상영횟수 대비 매출액이 비례하게 증가

  • 다중공선성 문제에 의거, 관객수와 상영횟수라는 특성은 제거 후, 모델 성능을 평가해보는 것이 좋겠다는 것을 확인

스크린수 상위, 하위 Top7

  • 상위 7작품 중의 원더우먼 1984처럼 스크린수로는 Top1이지만, 스크린당 관객수는 133명으로 현저히 적어, 매출액이 크지 않음

  • 또한, 하위 7작품 중에서 쉬즈 더 맨은 스크린당 관객수가 6545명으로, 스크린수는 19개로 현저히 적으나, 관객수가 많아 매출액이 높음

  • 즉, 매출액도 스크린수에 비례하는 경향은 있으나, 이러한 조건을 만족하는 영화는 관객수, 상영횟수 특성 대비 많지 않다는 것을 확인

스크린수와 관객수, 스크린수와 상영횟수, 스크린수와 매출액의 산점도 & 선형회귀선

  • 위의 현상을 좀 더 한 눈에 볼 수 있게 상관계수가 높은 관객수와 상영횟수 그리고 매출액을 스크린수와 비교하여 산점도와 선형회귀선으로 시각화

  • 매출액과 관객수, 매출액과 상영횟수의 산점도&선형회귀선과 비교하여 산점도가 더 넓게 분포되어있음

  • 따라서, 앞에서의 관객수, 상영횟수라는 특성과 달리 스크린수는 매출액과 밀접한 상관관계를 가지고 있지 않다는 것을 확인

  • 스크린수 특성은 모델에 사용해보기로 결정
profile
THEO's velog

0개의 댓글