넷플릭스에서는 어떤 데이터를 수집할까?

mare-solis·2022년 2월 5일
13
post-thumbnail

넷플릭스는 콘텐츠 서비스이기도 하지만 테크 기업의 이미지도 있습니다. 데이터를 굉장히 잘 활용하고 추천 알고리즘에 공을 들이는 것으로 알려져 있죠. 그래서 과연 넷플릭스에서는 데이터를 얼마나 수집하는지 궁금하기도 합니다. 그런데 넷플릭스 계정 정보에 가면 자신의 데이터를 다운로드 받을 수 있다는 것 알고 계셨나요? 넷플릭스의 데이터, 함께 보도록 하겠습니다.


1. 데이터 다운로드

넷플릭스 홈페이지에서 계정 페이지에 들어가면 개인 정보 다운로드라는 항목이 있습니다. 제 기억으로는 작년 말까지는 제가 시청한 콘텐츠에 관한 데이터 하나만 다운로드 받을 수 있었는데 최근 다시 보니 제공받을 수 있는 정보가 훨씬 많아졌더군요. 하지만 절차도 좀 까다로워졌습니다. 예전에는 그냥 바로 csv 파일로 다운로드 받을 수 있었는데 최근에는 정보를 요청해야 합니다.


요청 후에는 하루 뒤 "다운로드 준비 완료!"라는 메일이 옵니다.

2. 항목 설명

netflix-report라는 폴더가 다운로드 되었네요. 자, 그렇다면 가장 첫번째로 추가정보.pdf를 보도록 하겠습니다. 여기에는 넷플릭스가 수집하는 데이터가 항목 별로 나와있습니다. 아마 이용약관에도 나와있지 않았을까 싶네요. 하지만 난 이용약관을 잘 읽지 않지 🌝

넷플릭스가 수집하는 정보는 네가지 종류로, 회원이 넷플릭스에 제공하는 정보, 넷플릭스가 자동으로 수집하는 정보, 파트너사 제공 정보, 다른 출처에서 얻은 정보가 있습니다. 다 흥미롭지만 이 중에서 눈여겨 볼 것은 넷플릭스가 자동으로 수집하는 정보겠죠!

  • 콘텐츠 선택,시청한 프로그램 및 검색어 등 회원의 Netflix 서비스 내 활동
  • Netflix가 발송한 이메일과 문자메시지, 그리고 Netflix가 푸시 알림 및 온라인 메시징 채널을 통해 보낸 메시지를 회원이 수신하고 이에 대응한 내용
  • 문의한 일시와 이유,채팅 대화 기록, (전화 문의인 경우) 전화번호와 통화 녹음등 회원의 Netflix 고객 센터 문의에 관한 세부 내용
  • 디바이스 ID등 의 고유식별자(회원의 Wi-Fi 네트워크에서 Netflix 이용이가능한 디바이스 포함)
  • 재설정 가능 디바이스 식별자(광고 식별자로도 알려짐). 예를 들어 이러한 식별자가 있는 모바일 디바이스, 태블릿 및 스트리밍 미디어 디바이스 등에서 사용하는 식별자 (자세한 내용은 아래 '쿠키 및 인터넷 광고' 섹션 참조)
  • 디바이스 및 소프트웨어 특성(유형및구성등), 연결정보, 페이지뷰 관련 통계, 참조 소스(예: 참조 URL), IP 주소(회원의 대략적인 위치 정보), 브라우저 및 표준 웹 서버 로그 정보
  • 광고 데이터(광고 이용 여부 및 게재, 사이트 URL, 날짜 및 시간 관련 정보등)를 비롯해 쿠키, 웹 비콘 및 기타 기술을 사용해 수집한 정보 (자세한 내용은 '쿠키 및 인터넷 광고' 섹션 참조)

두번째 파일인 표지.pdf에는 말그대로 csv 파일과 표에 있는 변수 이름이 무엇을 의미하는지 상세히 설명하고 있습니다. 데이터를 보다가 이해가 되지 않는다면 이 파일을 보면 되겠습니다.


3. 데이터 살펴보기

첫번째 폴더인 ACCOUNT에 들어가 보니, 세개의 파일이 있습니다. 그 중 AccountDetails.csv의 표는 열이 하나로, 저의 기본적인 계정 정보가 담겨 있습니다. 그닥 흥미로운 정보는 없으니 넘어가겠습니다.

두번째 파일은 SubscriptionHistory.csv입니다. 제가 해당 계정을 통해 서비스를 구독하고 해지한 기록이 남아있습니다. 이것도 마찬가지로 기본적인 정보입니다만, 제가 예전에 구독했을 때의 패키지 정보와 이번에 새로 구독했을 때 패키지 정보를 비교하여 수집하는 것은 흥미롭네요.

Plan Change Old CategoryPlan Change Old Max Concurrent StreamsPlan Change Old Max Streaming QualityPlan Change New CategoryPlan Change New Max Concurrent StreamsPlan Change New Max Streaming Quality
STREAMING ONLY2HDSTREAMING ONLY4UHD

두번째 폴더는 CLICKSTREAM으로, 파일은 하나입니다. 제가 어떤 OS로 언제 무엇을 클릭했는지 볼 수 있습니다. 어떤 걸 클릭했나 살펴보니 아래와 같습니다 (참고로 웹에서 접속한 정보에 대해서는 클릭한 페이지 URL까지 표시됩니다.)

  • accountMenu
  • addProfile
  • browseTitles
  • browseTitlesGallery
  • cachedVideos
  • deviceSurvey
  • downloadsTab
  • editProfileAvatar
  • gameDetails
  • login
  • movieDetails
  • newsFeed
  • nmLanding
  • orderConfirmation
  • orderFinal
  • playback
  • postPlay
  • profilesGate
  • search
  • secondaryLanguagesSelector
  • updateProfiles
  • updateProfilesKids

제 생각에는 다음 폴더가 찐일 것 같은데요, CONTENT_INTERACTION 폴더입니다. 가장 많은 파일이 있습니다. 첫번째인 IndicatedPreferences.csv는 처음 넷플릭스에 가입할 때 선호하는 콘텐츠를 고르도록 하는데, 그 정보라고 합니다. 워낙 예전에 해서 저는 잘 기억나지도 않네요 🙄

ShowHas WatchedIs InterestedEvent Date
The Good PlaceFALSETRUE2018-08-27
Marvel's The Punisher2019-05-11

두번째는 InteractiveTitles.csv입니다. 2018년에 <블랙미러: 밴더스내치> 나온 거 기억하시나요? 그때 참 열심히 했었는데 그 기록이 남아있었네요. 제가 어떤 선택을 언제 했는지, 그리고 이 선택을 예전에도 한 적이 있는지 나와 있습니다. countdown_complete와 interrupted는 제가 카운트다운 전에 선택을 했는지 아닌지를 의미하는 것 같네요. 어떤 선택지에서 고민을 많이 했는지 알 수 있습니다.

Title DescSelection TypeChoice Segment IdHas WatchedSourceUtc Timestamp
Black Mirror: Bandersnatchcountdown_complete책상을 내리친다FALSEandroid2018-12-30 14:28:40
Black Mirror: Bandersnatchcountdown_interrupted되돌아가기FALSEandroid2018-12-30 14:28:36
Black Mirror: Bandersnatchcountdown_interrupted컴퓨터를 망가뜨린다FALSEandroid2018-12-30 14:28:06
Black Mirror: Bandersnatchcountdown_complete약을 먹는다FALSEandroid2018-12-30 14:27:23
Black Mirror: Bandersnatchcountdown_interrupted손톱을 물어뜯는다FALSEandroid2018-12-30 14:26:51

My List는 당연히! 내가 찜한 콘텐츠를 의미합니다. 생각보다는 간단하네요.

Profile NameTitle NameCountryUtc Title Add Date
UserCall My Agent!South Korea2022-01-06
UserMid90sSouth Korea2022-01-06
UserThe StrangerSouth Korea2022-01-04

다음은 PlaybackRelatedEvents.csv입니다. 제가 콘텐츠 시청 중 수행한 작업에 대한 정보가 담겨있습니다. Playtraces 중 하나를 보겠습니다.

[{"eventType":"start","sessionOffsetMs":0,"mediaOffsetMs":429001},{"eventType":"playing","sessionOffsetMs":654,"mediaOffsetMs":429001},{"eventType":"paused","sessionOffsetMs":4056,"mediaOffsetMs":432000},{"eventType":"reposition","sessionOffsetMs":4057,"mediaOffsetMs":442186},{"eventType":"playing","sessionOffsetMs":4254,"mediaOffsetMs":442186},{"eventType":"paused","sessionOffsetMs":4984,"mediaOffsetMs":443000},{"eventType":"reposition","sessionOffsetMs":4985,"mediaOffsetMs":452831},{"eventType":"playing","sessionOffsetMs":5351,"mediaOffsetMs":452831},{"eventType":"stopped","sessionOffsetMs":883113,"mediaOffsetMs":1328660}]

제가 콘텐츠를 시작하고 재생하다가 일시정지를 했고, 10초 이동해 다시 재생했네요. 그리고 한번 더 멈추고 10초 이동, 재생, 이후 종료했습니다. sessionOfseetMs는 세션에서 어느 시점에 이런 이벤트가 발생했는지, mediaOffsetMs는 영상에서 어느 시점에 이벤트가 발생했는지 알려줍니다. 넷플릭스가 이런 정보를 이용해 <하우스 오브 카드>를 제작했다는 얘기를 들은 적이 있는데, 실제로 수집을 하긴 하네요..!


다음은 Ratings.csv입니다. 넷플릭스는 thumb up/down의 단순한 방식으로 콘텐츠르 평가하도록 하는데, 여기에는 Star Value라는 항목도 있습니다. 표지에는 "프로필 사용자가 특정TV 프로그램 또는 영화에 마지막으로 남긴 별점"이라고 나오고, 0은 평가를 삭제, -1은 관심 없음, -2는 선호 콘텐츠 선택 당시 시청한 적 없음이라고 합니다. 제 데이터에는 Star Value가 나오지 않네요.

Title NameRating TypeStar ValueThumbs ValueDevice ModelEvent Utc TsRegion View Date
Master of Nonethumb1HTML 52021-05-22 02:53:37
Love and Monstersthumb2iPhone2021-04-22 15:10:19

다음은 SearchHistory.csv 파일입니다. 검색은 제가 넷플릭스에서 가장 좋아하는 기능이기도 합니다. 검색이 너무 잘 되기 때문이죠! 그리고 넷플릭스에 없는 콘텐츠를 자주 검색하면 얼마 뒤 실제로 그 콘텐츠가 들어온다는 것, 우연의 일치인지는 모르겠지만 저는 경험해봤다고 생각합니다 😗

Country Iso CodeDeviceIs KidsQuery TypedDisplayed NameActionSectionUtc Timestamp
KRiPhone0미국tv미국 TV 드라마view_suggestion_infosuggestion_results2021-10-12 13:32:33
KRiPhone0스릴러스릴러·범죄view_suggestion_infosuggestion_results2021-10-12 13:32:14
KRiPhone0크리스마스렛 잇 스노우view_video_infosuggestion_title_results2021-11-23 15:32:16
KRAndroid Tablet0벽난벽난로 4K: 가상의 따뜻한 자작나무 벽난로playvideo_info2021-10-29 09:42:18

이렇게 제목, 장르, 특성 뭘로 검색해도 넷플릭스는 대부분 만족할만한 결과를 내놓는데요, 제가 이상하게 검색해도 찰떡같이 알아듣습니다. 이후 저는 더 많은 제안된 검색어를 보기도 했고, 콘텐츠 리스트가 나오면 상세 정보를 보거나, 바로 재생을 하기도 했습니다.


마지막으로 ViewingActivity.csv는 가장 중요하다고도 할 수 있는 정보입니다. 구독형 서비스의 경우 Duration을 바탕으로 정산이 이루어지기도 하죠. 어디에 북마크가 저장되었는지에 관한 정보도 여기에 있네요. Latest Bookmark의 경우, 표지에서는 "해당 북마크가 TV 프로그램 또는 영화의 가장 최근 재생 세션에서 가장 최근에 시청한 위치인지 여부"라고 나와있는데요, 다른 게 아니라 숫자가 있으면 "그 이후에 콘텐츠를 보지 않았으며, 지금도 저 위치에 북마크가 되어 있군!" Not latest view는 "이번 세션 이후에 또 이 콘텐츠를 봤구나"라고 이해하면 되겠습니다.

Start TimeDurationAttributesTitleSupplemental Video TypeBookmarkLatest Bookmark
2021-12-24 12:46:4600:42:30고요의 바다: 시즌 1: 세 개의 저장고 (2화)00:42:3000:42:30
2021-12-24 11:59:5800:00:05고요의 바다: 시즌 1: 발해기지 (1화)00:00:05Not latest view
2021-12-24 11:59:5600:46:42고요의 바다: 시즌 1: 발해기지 (1화)00:46:4200:46:42
2021-12-24 11:59:2800:00:32Autoplayed: user action: None;시즌 1 (티저 예고편 1): 고요의 바다TEASER_TRAILER00:00:32Not latest view

자, 이렇게 오늘은 넷플릭스가 제공하는 개인 정보를 살펴봤습니다. 이외에도 9개의 폴더가 더 있지만 이건 찐 개인정보에 별로 흥미없는 것들이라 패스하죠. 다음에는 이번에 살펴봤던 데이터를 한번 분석해보는 것도 재밌겠네요!

profile
콘텐츠 전문가가 되고 싶은 방구석 연구인 🧐

3개의 댓글

comment-user-thumbnail
2022년 2월 8일

오 신기하네요!! 일시정지같은 것도 수집한다니

1개의 답글
comment-user-thumbnail
2022년 7월 11일

와 너무 흥미롭네요 ㅎㅎ! 저도 기회가 된다면 해보고 싶은 분석이에요 ㅎㅎ! 잘보고 갑니다♡

답글 달기