[데이터 분석][캐글] Netflix 데이터를 통한, 오리지널 콘텐츠 제작 방향 분석

공장장·2024년 7월 29일

들어가는 말

전 세계 OTT 1위. 바로 Nexflix다. 한 번쯤 들어봤을 오징어게임도 넥플릭스의 오리지널 시리즈 중 하나이다. 오징어게임은 공개된 지 3년이 지났음에도 2억 6천만회 시청 수로 영화/TV 부문 1위를 사수하고 있다. 이러한 인기에 힘입어 오징어게임 시즌2가 올해 공개된다고 한다. 다양한 오리지널 시리즈로 전 세계인의 시간을 사로잡는 Netflix. 넥플릭스는 한국을 포함한 다양한 국가에서 오리지널 콘텐츠를 제작하고 있다. 캐글에 공개된 데이터를 통해 넥플릭스 오리지널 콘텐츠의 제작 방향을 분석해 본다.





프로젝트 개요

데이터 출처: Kaggle

  • 캐글에 공개된 데이터를 통해 넥플리스 오리지널 시리즈 제작 전략 수립
  • EDA를 통한 콘텐츠 현황 및 분석
  • T-test와 그래프 분석을 통한 인사이트 도출




목차

1. EDA
1-1. 기본 정보
1-2. 데이터 전처리
1-3. 출시일 기준
1-4. 장르 기준
1-5. 언어 기준
2. 가설
3. 데이터 검증
3-1. 그래프를 통한 가설 검증
3-2. T-test를 통한 가설 검증
4. 최종결론
5. 마치며





1. EDA

1-1. 기본 정보


천 리 길도 한 걸음부터. 데이터가 어떻게 구성되어있는지 살펴본다.

데이터는 총 6개 컬럼, 584개의 데이터, 2014~2021년까지 넥플리스 오리지널 작품만 담겨있는 것으로 보인다.

컬럼 중에서는 공개일을 나타내는 Premiere 컬럼의 데이터 타입이 datetime이 아니었다.



1-2. 데이터 전처리

1-2-1. Genre 피쳐

장르는 최종적으로 총 9개 장르로 분류했다.
기준은 여러 기준이 있을 수 있겠지만, 주제를 전개하는 방식/분위기를 기준으로 분류했다.
소재는 슈퍼 히어로, 풍자, 전기일 수 있지만, 각각의 콘텐츠를 전개하는 방식이 코미디라면 해당 장르로 분류했다.

다만, 소재 자체가 장르로 대표될 수 있는 SF, 뮤지컬, 애니메이션은 그 장르의 유일성을 고려하여 병합하지 않았다.



1-2-2. Language 피쳐

언어는 크게 영어권 vs 비영어권 2가지로 분류했다. 처음에는 6대륙 기준, 문화권 기준, 아시아/유럽/아메리카 3개 기준 등등 여러가지를 생각했다.

하지만, 콘텐츠 수에서 영어가 압도적으로 많다는 점. 또한, 콘텐츠가 5개 미만인 언어가 약 70%인점을 고려해서, 크게 2개 그룹으로 분류했다.

언어가 2개 이상 중복된 경우에는, 몇 개 데이터를 확인해보니 비영어 문화권에서 제작된 콘텐츠이었다. 그래서 이 경우는 비영어로 그룹핑하였다.



1-3. 출시일 기준


넥플릭스의 '대작 금요일 공개' 전략은 유명하다. 실제로 그러한지 그래프를 통해 확인해봤다.

물론 최근 넥플릭스는 전략을 수정하여 수요일 공개 빈도를 늘리고 있다고 한다. 하지만 해당 데이터는 2021년도까지 데이터이기 때문에, 당시에는 금요일 공개가 압도적으로 많다는 것을 알 수 있다.




넥플릭스의 오리지널 콘텐츠 출시는 2014년 이후로 꾸준하게 상승세에 있다. 특히, 2017년부터는 모수가 커짐에도 불구하고 전년대비 평균 1.5배씩 출시 작품수를 늘리고 있었다.




그렇다면, 작품수를 꾸준히 늘리고 있는데 연도별 평점은 어떨지 궁금했다. 드라마틱하게 상승하고 있는 것도 아니지만, 그렇다고 떨어지고 있지도 않다. 평균 6점대에서 미미한 움직임이 포착되었다.

시청자수가 많아지고, 작품수가 많아지는 추세에 미미한 변화는 오히려 긍정적인 시그널이라고 추측했다.



* 중간 정리
1. 금요일에 가장 많은 콘텐츠 공개
2. 매년 콘텐츠 출시 상승세(전년대비 1.5배)





1-4. 장르 기준


장르 피쳐는 앞서 언급한대로, 총 9개의 그룹으로 재분류했다. 분류 전에는 다큐멘터리의 비중이 앞도적이었으나, 상식선에서 재분류한 후에는 다큐멘터리/코미디/드라마의 비중이 비등비등하다는 것을 확인했다.




그렇다면 넥플릭스 유저들은 특별한 장르에 많은 평점을 줄까? 그래프와 같이, 다큐멘터리가 1위로 제일 높았다. 하지만, 한자리 수 비중을 차지하는 쇼, 애니메이션, 뮤지컬 장르 등을 제외하면 드라마 장르는 다큐멘터리와 약 0.6점의 근소한 차이를 보였다.




데이터의 전체 기간동안 출시한 콘텐츠의 장르를 살펴보았다. 앞에서 살펴본 장르별 비중을 숫자로 변환한 그래프이기 때문에 같은 내용이다.



의문점
여기까지 살펴보면서 문득 의문이 들었다. 다큐멘터리 콘텐츠는 가장 많은 콘텐츠 수와, 높은 리뷰를 가진 장르이다. 만약 해당 장르가 넥플리스의 일명 캐시카우 역할을 하는 장르라면, 계속 해당 장르의 비중을 늘리고 있을까?




우선 연도별로 출시한 콘텐츠의 장르들의 개수를 그래프로 표현했다. 뭔가 변화가 있는 것 같다.

2번째 그래프를 보면, 다큐멘터리의 비중이 계속 줄어들고 있다는 것을 알 수 있다. 또한, 드라마 장르는 지속적으로 비중이 늘어나고 있다.




가장 큰 비중을 차지하는 4개 장르를 중심으로 데이터를 살펴봤다. 또한, 작품수가 유의미하게 누적된 2017년부터 2020년까지로 기간을 한정했다. 이렇게보니 조금 더 명료하게 보인다. 심지어 2020년에는 드라마 장르가 다큐멘터리의 개수를 넘어선 것으로 확인된다.

왜 넷플릭스는 평점이 가장 높음에도 불구하고 다큐멘터리 장르가 아니라, 드라마 장르의 콘텐츠를 늘릴까?




다시 돌아와서 작품별/장르별 런타임을 살펴보자. 드라마 장르의 평균 런타임이 1위이다. 그리고 가장 평점이 높았던 다큐멘터리는 7위를 기록하고 있다.

그렇다면 런타임과 관련이 있을까?



* 중간 정리(출시일)
1. 금요일에 가장 많은 콘텐츠 공개
2. 매년 콘텐츠 출시 상승세(전년대비 1.5배)


* 중간 정리(장르)
1. 장르별 평균 평점, 출시 작품수 1위: 다큐멘터리
※ 장르별 평균 평점 4위: 드라마 (1위와 0.62점 차이)
2. 매년 출시 비율: 다큐멘터리 ↓ / 드라마 ↑
3. 장르별 평균 런타임 1위: 드라마





1-5. 언어 기준


앞에서 언급한 것과 같이, 약 70%의 언어는 콘텐츠 수가 5개 미만이기 때문에 영어/비영어로 그룹핑했다.




그룹핑한 결과 영어는 72.3%이고, 비영어는 27.7%의 비중을 차지했다.




최근 디즈니플러스를 살린(?) '무빙'의 사례와 같이, OTT는 한개의 초대박 콘텐츠가 회사 전체를 일으킬 수 있다고 생각한다. 그래서 언어별 최고 평점이 몇점인지를 확인해봤다.

영어, 포르투갈어, 스페인어 등으로 나열된 것을 확인해볼 수 있다.




그렇다면 영어/비영어 콘텐츠의 출시 추이는 어떨까? 재밌게도 연도별로 비영어 콘텐츠가 지속적으로 상승세에 있다는 것을 알 수 있었다. 매년 전년대비 약 2배에 가까운 콘텐츠를 쏟아낸다는 것을 알 수 있다.

왜 넷플릭스는 비영어 콘텐츠의 비중을 늘릴까?




특히, 최고 평점 작품을 기준으로 살펴보면 비영어의 콘텐츠의 상승세가 무섭다는 것을 확인할 수 있다.

2020년에는 최저대비 약 2점 이상 상승한 콘텐츠를 출시하였다. 정말 넥플릭스는 비영어 콘텐츠에서 가능성을 확인한 것일까?

하지만, 영어/비영어 최고평점 둘다 장르는 다큐멘터리이다.

영어: David Attenborough: A Life on Our Planet (장르: Documentary, 평점: 9.0)
비영어: Emicida: AmarElo - It's All For Yesterday (장르: Documentary, 평점: 8.6)




하지만, 비영어는 비다큐의 비중이 압도적으로 높다.




데이터가 완전하지 않은 21년도를 제외하면, 영어 콘텐츠 또한 계속적으로 다큐 장르의 비중을 줄이고 있는 것이 확인된다.



* 중간 정리(출시일)
1. 금요일에 가장 많은 콘텐츠 공개
2. 매년 콘텐츠 출시 ↑↑ (전년대비 1.5배)


* 중간 정리(장르)
1. 장르별 평균 평점, 출시 작품수 1위: 다큐멘터리
※ 장르별 평균 평점 4위: 드라마 (1위와 0.62점 차이)
2. 매년 출시 비율: 다큐멘터리 ↓ / 드라마 ↑
3. 장르별 평균 런타임 1위: 드라마


* 중간 정리(언어)
1. 비영어 신규 콘텐츠 수 ↑↑
2. 영어/비영어 최고평점 모두 다큐 콘텐츠
3. 영어/비영어 모두 비다큐 콘텐츠 비중 ↑





2. 가설

가설 1. 신규 콘텐츠를 드라마 장르로 제작하는 것이 넷플릭스에 도움이 될까?
가설 2. 출시 요일과 평점과는 관계가 있을까?





3. 데이터 검증

3-1. 그래프를 통한 가설 검증

가설 1. 신규 콘텐츠는 드라마 장르로 제작되어야 한다?

  • 다큐멘터리 대비, 드라마 장르의 신규 콘텐츠 수 ↑
  • 드라마와 다큐멘터리의 평균 평점 차이 ↓
  • 드라마 장르의 런타임 ↑
  • 평점 ↑ > 끝까지 시청할 가능성 ↑ > MAU ↑

* 항목별 순위

  • 평점순: 다큐 > 쇼 > 애니메이션 > 드라마
  • 개수순: 다큐 > 코미디 > 드라마 > 스릴러
  • 런타임순: 드라마 > 액션 > 스릴러 > SF

* 다큐멘터리와 드라마의 총 런타임 비교

  • 드라마(총시간): 13,696 > 다큐(총시간): 12,636

∴ 넥플릭스는 사용자의 월간 활성이용자수(MAU)를 중심으로 제작 전략을 수립하는 것으로 판단된다. 평점 차이는 미미하지만, 런타임이 1.5배 큰 드라마 장르를 지속 출시한다면 MAU 상승에 기여 가능.



3-2. T-test를 통한 통계적 가설 검증

가설 2. 출시 요일과 평점과는 관계가 있을까?

1단계. 귀무/대립가설 및 유의수준 설정

  • 귀무가설: 출시 요일과 평점은 관계가 없다.
  • 대립가설: 출시 요일과 평점은 관계가 있다.
  • 유의수준: 0.05

2~3단계. t-통계량 계산 ~ p-value 계산
※ 정규성 / 등분산성 검정 & p-value 계산


등분산성 검정 결과 분산값은 모두 달랐다. 그리고 등분산성 p-value 값은 nan 값이 출력됐다.


※ nan 값 출력 원인 확인

금요일을 제외한 일부 요일의 데이터값이 너무 적어서 발생한 것으로 판단했다. 그래서 가설 재설정 후, 통계적 가설 검정 과정을 진행했다.



가설 2. 금요일에 공개하는 것과 평점은 관계가 있을까?

1단계. 귀무/대립가설 및 유의수준 설정

  • 귀무가설: 금요일 출시와 평점은 관계가 없다.
  • 대립가설: 금요일 출시와 평점은 관계가 있다.
  • 유의수준: 0.05

2단계. t-통계량 계산
※ 정규성 검정 / 등분산성 검정

새로운 가설로 확인해보니, 두 요일 그룹의 p-value값이 유의수준보다 낮아 정규성 검정을 불만족했다.

또한 분산이 달라, 등분산 가정을 통한 t-test가 불가능했다. 따라서 이분산을 가정한 t-test로 검정을 진행했다.


3단계. p-value계산 및 기각역 확인

※ 두 요일 그룹의 평균 평점 & 표준 편차


※ p-value 유의수준과 비교 & 기각역 확인

두 요일 그룹의 평균 평점을 비교하는 t-test를 진행하여, t-통계량과 p-value값을 얻었다.

  • 기각역: 유의수준 ≤ p-value(0.09637700417714162)

4단계. 통계적 의사 결정





4. 최종결론

  • (런타임 기준) MAU가 중요하다면, 신규 콘텐츠 장르는 '드라마'
  • 콘텐츠의 평점은 공개 요일과 무관하므로, 요일에 상관없이 공개

※ 신규 고객 유입, 누적 시청 시간, 조회 수 고려하지 않은 인사이트였다는 점에서 아쉬움이 남는다.





5. 마치며

정성적/정량적 판단을 통해 넥플릭스의 신규 오리지널 콘텐츠 제작 방향에 대한 분석을 마쳤다. 과거 데이터라서 조금 아쉬웠지만, 평소 깊게 생각해보지 않은 도메인에 대한 리서치와 분석은 색다른 경험이었다. 아직 확인해보지 않았지만, 현재 넥플릭스가 어떤 방향으로 콘텐츠를 제작하고 있는지 확인해볼 수 있다면 내 분석이 맞는지 확인해볼 수 있다는 점에서 그것대로 좋은 기회가 아니었나 생각한다. 이번 경험을 통해 통계적 가설 검증을 조금 더 수월하게 활용할 수 있는 기회가 되길 바란다.

profile
연장 대신 키보드 뚱땅거리며 분석하는 '데이터분석 공장 529'

0개의 댓글