이미 전에 손정의가 왜 소비 데이터를 축적하는지 내용을 남겼다. 혹시 보지 못했다면 먼저 보길 권한다.
손정의가 왜 페이에 집착하는지
짧게 써머리를 하자면
"투자의 목적으로 소비 데이터를 축적하고 있다." 이다.
한국에서는 네이버, 쿠팡, 토스...등에서 데이터를 확보 하고 있다. 그리고 오늘 나는 토스 증권에 대해서 말해보려고 한다.
NLP의 도움으로 이미 미국 주식과 주식 커뮤니티의 sentiment는 뚜렷한 상관이 있다고 결론이 났다. 하지만, 한국에서 여러 시도가 있었지만 뚜렷한 상관 관계를 제대로 도출 하지 못하였다. 기관에서 퀀트 한분이 종토방 데이터를 끌어와 시도를 했지만 상관 관계를 뚜렷하게 나타내지 못하였다. 왜냐면 데이터샘플수 뿐만 아니라 비교 가능한 다른 커뮤니티가 제대로 없다. 영어권 데이터는 reddit만 아니라 oasis, twitter, facebook, instagram... 등등 여러 곳에서 데이터를 모을 수 있고 비교 가능 하다.
일단 샘플이 많아야 기준이 제대로 생기는데 네이버 같은 종토방 데이터는 처음부터 데이터 수집 목적이 아닌 단순하게 소통 목적으로 만들어졌다. 그래서 제대로 수집하기도 힘들다. 그러나 토스 증권 토론방은 다르다. 처음부터 데이터 수집을 위해 만들어졌다. 가장 중요하게 토스는 각 개인의 거의 모든 금융 데이터 포인트를 가지고 있다.
이게 왜 중요한 지 그냥 직감적으로 생각 해보자.
대기업 회장이 "XX기업 텍사스에 라인인 하나 추가 할 거임" 이라고 짧게 토론방 댓글을 남겼다. 그리고 일반 시민 한명이 댓글을 남겼다. 일반 시민은 반대로 왜 XX기업이 절대 텍사스 라인을 늘릴 수 없는지 굉장히 논리적으로 남겼다. 상대적으로 더 설득력이 있다. 그러나 누구의 정보가 더 중요한 정보 일까? 만약 각 댓글인에 대한 아무런 정보가 없으면 둘 다 중요한 정보가 되지 못한다. (물론 데이터가 어느 정도 쌓이면 중요해 진다.) 그러나, 만약 각 댓글인에 대한 정확히 정보가 있다면 어떨까? 예를 들어 각 개인이 얼마 예금, 보험, 증권, 담보, 건강보험료, 세금... 있거나 납부 하는지 알게 되면 중요도가 높아 질 거 이고 어떤 주식을 매수/매도 했는지도 알면 이 사람이 유튜버 처럼 자기가 매수한 주가를 띄워 단타하려고 마켓팅을 하는 건 지 아니면 진짜 가치와 성장성을 계산하여 말하는 지 정확히 알 수 있다.
아쉽게도 이 모든 데이터는 일반 시민이 알 수 없다. 오로지 플랫폼 사업자만 알 수 있다. 손정의는 어느 그 누가 와서 천문학적인 윗돈을 줘서 네이버, 쿠팡, 토스... 등등을 산다고 해도 안팔것이다. 해당 플랫폼에서 모은 데이터로 평생 해먹을 수 있는데 멍청하게 누가 팔랴. 진짜 장사꾼은 좋은 건 매장대에 진열하지 않고 자기가 먹는다. 그게 바로 네이버, 쿠팡, 토스이다. 반대로 보스턴 다이내믹스 처럼 썩은 과일은 잘 포장해서 진열대에 올려 놓는다.
ps.
하지만 한가지 의문이 있다. 토스는 단어로만 1차원적인 데이터 애널리시스만 할까? 라는 생각이다. 왜냐하면 아직 대화 형식의 한국어 데이터가 없으니 모델을 제대로 만들지 못할 것 이다. 책 관련 데이터를 모은다고 해도 토론방 대화 형식과는 좀 차이가 있다.