더 정확한 데이터를 향해, 소프트콘 뷰어십 제작기(9)

정연진·2024년 5월 23일
7


뷰봇.
인터넷 방송에서 시청률을 올리기 위해 시청자 수와 팔로우 수, 그외 것들을 올라가게 하는 봇.

소프트콘 뷰어십은 데이터를 정확하게 파악하는 것이 가장 중요한 목적이기에 이러한 뷰봇을 탐지할 수 있는 시스템을 갖추는것이 중요한 목표중에 하나입니다.


https://viewership.softc.one/

소프트콘 뷰어십.

대한민국 인터넷 방송의 시청률을 측정, 분석하고 이를 통계화해 사용자들에게 제공하는 서비스입니다. 일 평균 7,000 ~ 10,000명 정도가 접속하고 있으며 이를 기반으로 수많은 BJ/스트리머와 기업들이 다양한 업무 및 방송 준비등을 진행하고 있습니다.

이번 편은 뷰봇을 탐지하고 걸러내기 위한, 그리고 사이트 데이터의 정확성을 높이기 위해 진행했던 일들과 관련하여 적어보려고 합니다.


뷰봇 나무위키

인터넷 방송이 성장하면서 이러한 방송 데이터를 통해 마케팅/홍보를 하기 위한 여러 통계 시스템이 발전하기 시작했습니다. 또한 시청자수의 증가를 통해 방송을 상위권으로 올려 사용자들에 관심과 이목을 끌기 위한 행위기도 하죠.

바이럴 마케팅의 일종이 아니냐? 라고 생각할수 있겠지만, 엄연히 불법 행위입니다. 이는 컴퓨터업무방해죄에 해당하여 실제 아프리카TV는 뷰봇을 판매한 업체들에게 형사 처벌을 받게 한 사례도 있죠.

비정상적인 데이터

소프트콘 뷰어십은 각 플랫폼에서 보여지는 시청자수 데이터를 이용해, 플랫폼, 카테고리 그리고 각 크리에이터별 데이터까지 만들어 내고 있습니다. 모든 데이터의 가장 핵심 정보는 시청자수 데이터 라는 것이죠.

시청자수 데이터가 오염되어 있다면, 제공하고 있는 정보의 정확성이 떨어진다는 이야기가 됩니다. 그렇기에 이러한 패턴을 파악하고 오염을 제거한 깨끗한 데이터를 제공하는 것이 중요한 부분이기도 하죠.

이제부터 이러한 뷰봇과 관련해서 각 플랫폼 별로 어떤 대처를 하고, 어떻게 진행하고 있는지에 대해서 설명해 보려고 합니다.

치지직


12월 19일 베타, 그리고 5월 9일 정식 출시된 네이버의 스트리밍 플랫폼인 치지직.

시작하고 몇달이 지나지 않아 비정상적인 시청자수 변화가 발생하기 시작했습니다. 분명 기존 10~20명 정도의 시청자를 보유한 방송이 10,000 ~ 30,000명 까지 올라가는 모습을 보이며 뷰봇으로 충분히 의심될만한 상황으로 보여지게 되었죠.

뷰봇으로 의심되는 데이터 패턴

뷰봇의 시청자수 패턴은 굉장히 일관적입니다.

평소 보유하고 있던 시청자수에서 급격하게 증가하는 양상을 보여주기 시작하며 1시간만에 기존 시청자 대비 5,000배 ~ 10,000배 까지 시청자수를 급증시킵니다.

현재 보여지고있는 해당 데이터에서도 평소 10~20명이였던 방송이 최고 19,388명 까지 기록하며 굉장히 급격한 패턴을 보여주고 있습니다.

하지만 이러한 의심 패턴 만으로는 이 데이터가 비정상적인지 아닌지는 판단할 수 없습니다.
진짜로 시청자가 이렇게 몰렸을 수도 있고, 이런 누가봐 뻔한 패턴이 아닌 애매하게 증가되는 뷰봇 패턴은 감지할수 없을테니까요.

소프트콘 뷰어십은 데이터를 기반으로 만들어지는 사이트이기에, 더욱 확실한 근거를 가진 데이터가 필요합니다.
여기서 사용되는 것이 치지직의 누적 시청자수, "재생수" 데이터 입니다.

누적 시청자수 ( 재생수 )


소프트콘 뷰어십에선 해당 순간 기록된 데이터를 제공하고 있습니다. 현재 치지직의 API 데이터에선 시청자수와 더불어 누적 시청자 수를 같이 사용하고 있습니다. 이는 예전 치지직 플랫폼에서 방송 시간 대신 누적 시청자수 를 표기했기 때문에 남아있는것으로 보이는데, 이 데이터가 굉장히 중요한 근거로 활용되고 있습니다.

( 참고로, 현재 치지직 자체 통계 페이지에서 표기를 재생수로 변경하여 사용하고 있습니다 )

지금 보고 있는 사진에서 분명 이상한 지표가 하나 존재합니다.
누적 시청자는 해당 방송을 본 사용자들인데, 시청자수보다 더 작을수 있을까요?

불가능하죠.

아마 치지직에서 사용하는 누적 시청자 데이터는 동일 IP나, 특정 기준의 데이터는 1개로 처리해버리는 듯 한데 시청자수는 이것과 관련없이 현재 방송을 시청하고 있는 모든 세션을 감지하는것 같아 보입니다.

그러다보니 두 데이터상 분명한 오류가 발생하고 소프트콘 뷰어십에선 해당 데이터의 차이를 감지해 비정상이라는 표기를 붙여 랭킹에서 표시하고 있습니다.

이는 어느 누가 생각해봐도 분명 비정상적 데이터로 판별할 수 밖에 없습니다.

네이버에서는 알고 있는가?

내부 데이터와 유출된 데이터등을 조합하자면 네이버의 자체 통계에선 이미 해당 데이터를 파악하고 제외시키고 있는것으로 보입니다. 아무래도 수익 정산과 관련된 부분이다보니 더 민감하게 파악하고 있는것 같은데, 크리에이터 자체 통계가 아닌 시청자들이 볼수 있는 데이터에서는 아직 뷰봇 데이터가 확인되고 있는 상황이라 추이를 지켜봐야 하지 않을까 싶습니다!


아프리카 TV


아프리카TV는 굉장히 오랜 기간동안 뷰봇과 싸움을 해오고 있습니다. 이는 소통센터 방송과 여러 기사, 그리고 형사 처벌등 다양한 방법으로 안내하고 대응하고 있는 상황이죠.

플랫폼 자체가 오래 되었기도 했고, 그 상황에서 나오는 경험이 축적되어 있지 않나 생각하고 있습니다.

아프리카에선 5월 4일, 대놓고 뷰봇으로 의심되는 데이터가 발생했습니다. 소프트콘 뷰어십에서도 해당 데이터를 추적하고 패턴을 분석하기 위해서 다른 개발자님의 도움을 통해 더 세부적인 데이터도 확인해봤습니다.

헛삯님의 도움을 받아 얻은 "로그인 시청자" 비율


먼저, 해당 데이터를 만들어주신 헛삯님께 다시한번 감사드립니다!
헛삯님 Github

현재 보고있는 지표는 5월 4일 발생했던 BJ의 뷰봇이 있었던 방송 데이터입니다. 파란색 선은 시청자수 추이이며, 나머지는 각각 입장 시청자수와 누적 시청자수 데이터입니다.

해당 데이터는 로그인된 시청자를 파악해 추적하고 있는 지표이기 때문에, 로그인을 하지 않는 뷰봇 데이터를 뺀 시청자 추이 데이터를 명확하게 볼수 있는데요, 아프리카는 굉장히 이상하게 뷰봇 의심 데이터로그인 시청자 데이터가 동일한 추이로 움직입니다.

데이터를 그대로 해석한다면, 아프리카의 유동 인구가 뷰봇처럼 움직였다는 믿기힘든 결과가 나오게 됩니다.

조금더 자세한 지표를 설명드리겠습니다.

  • 최고 시청자 : 18,463명
  • 평균 시청자 : 7,611명

그리고 아프리카TV에서 해당 BJ에게 전달한 내용은 다음과 같았습니다.

뷰봇은 4천이였고 18000명까지 올라간거 다 유동이었대요;;; 개무섭네 거의 14000명이랑 얘기한거네

결론

헛삯님과 해당 데이터를 분석하며 나눈 대화는 많았지만, 저희도 명확한 결론을 내리지는 못했습니다.

아프리카TV에선 평일에 뷰봇 사용자가 감지되면 아프리카 자체 방법을 통해 뷰봇 사용자를 제한하는 방법을 이용하고 있기도 하고 이 사건 이후 현재까지 대놓고 드러나게 뷰봇을 쓰는 상황이 현재 없는 상황인지라 패턴을 파악하기가 더욱 어렵기도 한 상황입니다.

뷰봇을 뛰어넘는 아프리카의 유동인구를 데이터로 확인한것이 나름 수확이라고 해야할까요?
조금 더 노력해야 할것 같습니다..

근본적인 해결책

아프리카TV와 치지직팀 모두 이러한 뷰봇을 잡기 위해 노력하고 있을 것이라 생각합니다. 저 역시도 항상 이런 일로 갈려나가실 개발자들의 노고에 깊은 위로의 말씀을 전하고 싶습니다.

하지만, 이러한 데이터로 피해를 보는것은 저같은 서드파티 개발자들 보다도 해당 플랫폼에서 방송하고 있는 크리에이터들과 오염된 데이터를 봐야하는 시청자들일 것입니다. 앞으로도 각 플랫폼에서 더욱 좋은 환경의 방송을 할 수 있도록 신경써 주셨으면 좋겠습니다.

감사합니다!

profile
소프트콘 뷰어쉽 절찬리 운영중! https://viewership.softc.one

2개의 댓글

comment-user-thumbnail
2024년 11월 4일

방송시간, 누적 시청자수, 재생수가 같은 말인가요? 용어 해석 좀 제대로 해서 써주셨으면 좋겠습니다. 뭔 말인지를 모르겠어요. 유튜브에 빗대면 재생수가 뭔지 대충 유추가 되긴 하는데. 전혀 다른 말 아닌가...

제가 알기로 치지직 공식 api 가 아직 없어서 누가 자체적으로 만들었다던데 혹시 그거 사용하고 계세요? 그 사람이 만들어 놓은 거 해석 제대로 해서 써놓고 시작하셔야죠. 뭐가 사실이고 뭐가 자의해석인지를 모르겠네. 이런 글 쓸때 데이터와 해석을 제대로 분리해서 쓰는 게 맞다고 봅니다. 애초에 뭐라하는지 모르겠어요. 단순히 프로그램 쪽 전공이신가? 데이터 관련 전공이라면 문제가 좀 큰데. 해석하기 전에 용어 정의 먼저 해주시고, 어떤 근거로 해석을 했는지 작성하는 게 정상입니다. 이런 훈수는 그동안 주변에서 안 해주셨나 봅니다;

그리고 공식 api 가 아니면 사실상 다 불법인데 알고 계시죠? 허락 받고 크롤링 하시는 건가? 남들 다 쓴다고 자기는 괜찮을 거라고 생각하시는 건 아니죠? 수익 얻고 있는데 조심하셔야 합니다;;

수익 얘기하니까 궁금한데, 광고랑 멤버쉽으로 얻은 수익만으로 유지가 되나요? 사람들이 멤버쉽 많이 해주시나?

1개의 답글