prologue (스킵 하셔도 됩니다.)

안녕하세요
금융과 컴퓨터 공학에 관심이 있는 흔한 사람입니다.
지극히 개인경험에 의한 생각이니,
그냥 재미로 읽어 주시길 바랍니다.

저는 인간의 탐욕에 의해서 세상이 발전한다고 생각을 하고 있고,
그래서 금융시장이 가장 효율적인 시장이라고 믿습니다.
경쟁을 따돌리기 위해, 금융시장 참여자들은 가장 최신 기술을 쓰고 있습니다.
지금 상용화된 인공지능과 5G이 보다 뛰어난 군사 레이저 기술이 이미 10~15년 전 금융시장 종사자 소수가 사용했다면 사믿으시겠습니까?
저도 처음에는 믿지 못했지만 사실입니다 (돈의 물리학).

그리고,
질문을 드리겠습니다.
만약 당신에게 아래와 같은 정보가 입수되었습니다.
1시간 이후에 IPO를 하는 유니콘회사에 대한 정보입니다.
총망받는 유니콘 회사 IPO이전에....
shorting할 수 있는 주식수가 넘처났다는 사실을 알게 되었습니다.
그러면 당신은 해당 IPO 주식을 사시겠습니까? 아니면 shorting을 하시겠습니까?
그리고 왜 이러한 현상이 일어날까요?
IPO이전 해당 주식을 많이 보유한 사람은 어떻게 자신의 리스크를 분산 할 까요?
이런게 불법일까요? 편법일까요?
정말 테크기업이 돈을 버는 걸 까요?
아니면 그 뒤에 있는 우선주식, 수많은 채권자들이 위험없이 꾸준히 돈을 버는 걸까요?

위에 해당하는 답은 각자 구글링 하셔서 찾아보시기 바랍니다.
저는 제 자신에게 질문을 던졌고 답을 얻었습니다.
앞으로 모든 시장이 금융시장과 비슷하게 흘러갈 것으로 믿어 의심치 않습니다.
지금은 무슨 쌩뚱 맞은 소리냐? 라고 하실 수 있습니다.
리서치는 각자에 맡기겠습니다.

참고:
이 글에서 제가 정의한 데이터 엔지니어, 데이터 과학자는 일반적인 정의와 다릅니다.
수학자인데 데이터를 전문적으로 다루는 사람에 대한 명칭을 모르기 때문 입니다.
또한,
일반적으로 데이터 과학자라고 명칭하면 제가 전달하고 싶은 내용이 전달이 안되서 입니다.

Main

얼마 전에, VREW라는 앱이 위기에 놓였다고 글을 올렸다.
좋은 앱이지만, 데이터와 플랫폼을 장악하는 구글이 시장을 단숨에 잠식해버렸다. 즉석에서 voice to text 기능인Transcribe을 선보였다.
그냥 한 귀로 흘릴 뉴스가 아니다.
모든 인공지능 기반 중소기업이 위험하다.
잘 생각을 해보자 아무리 VREW가 기초 기술을 구글에서 빌려서 써왔다고 하지만
이렇게 순식간에 광고 하나로 시장을 잠식할 주는 아무도 몰랐다.

무엇이 문제이었는지 짚어보자.
우선, VREW가 데이터를 어디서 마이닝 했는지 생각해보자.
데이터는 유져에게 직접 데이터를 받아왔다.
VREW는 플랫폼을 제공하였다 무상이었고 데이터가 없는 회사로서 데이터 마이닝을 하기 위해서 상당히 아이디어가 좋았다.

이미 만들어진 모델 기반으로 하되,
유져들이 지속해서 정형화된 데이터를 주입해주고 있었다.
제로 데이터베이스에서 시작해서 사용자들이 직접 제공하는 정형화된 귀중한 데이터로 정확도가 날로 향상되고 있었다.
그래서, 점점 더 유튜브들 사이에서도 상당히 인기를 끌고 있었다.

하지만 한가지 간과한 게 있었다.
바로 구글...!
이미 구글은 같은 목적을 달성하기위하여
다른 방식으로 데이터를 마이닝을 하고 있었다
그리고 데이터양은 비교 불가 하였다.

이 링크 타고 한번 당신이 구글에 제공한 데이터양과 구글이 어떻게 정형화를 한 지를 보아라
https://takeout.google.com/? pli,com/?PLA,com/?PLC,com/?PLD,com/?PLF,com/?PLL,com/?PLO,com/?PLS,com/?ply=1
이 뿐만이 아니다,
사용자가 직접 올린 유튜브 동영상과 자막들을 제외이다.
이렇게 voice to text에 해당하는 데이터가 무지막지하게 쌓여 있었다.
처음부터 잘못된 시장개척이었던 것이다.

하지만, 제품이 무지막지하게 좋은 건 확실하다.
실제 사용해보면 단숨에 알 수 있다.
하루 빨리 국내 대기업이 인수하길 바란다.

그러면 언제가 모든 인공지능 스타트 기업들이 몰락할 까?
나는 빠르게 몸집을 키우지 않으면 위험하다고 본다.
빨리 한국에서도 Palantir 처럼 몸집을 키운 인공지능 기업이 나와야 한다.
몸집이라도 키우면 대기업이 잠식하는 분야에 속해 있더라도 회사에 일부분에 불가할 것이다.
몸집이 커지면 분업화도 가속화 될 것 이고
일반적인 모형화를 하는 데이터 "과학자" 보다는 완전 새로운 (layer추가) 모델은 구축할 수 있는 데이터 "수학자"들이 더 많이 필요할 것 이다. 자신이 "데이터 과학자"라면 생각된다면 한번 마음에 손을 얹고 이 질문에 대답해 보아라. 처음부터 끝까지 손수 자신이 만든 모델이 이미 github에 공개된 많은 모델들 보다 정확도가 높은지...내가 말하는 것은 이미 뼈대가 주어진 모델에서 조금 tweak해서 만든 모델은 말하는게 아니다...그리고 정확도는 테스트 셋 데이터에서가 아니라 실전에서...정말 자신있게 'YES!'를 외칠수 있는 사람은 데이터 "수학자"이다. 10년 이상 그 분야에 몰입한 사람이라고 본다.
그래서,
데이터 엔지니어 숫자가 독보적으로 많아야 한다.
비유를 하자면...
막노동하는 사람이 가장 많아야 되고
중간에 '조립형' 굴착기 모형을 조립하는 사람은 가장 적어야 하고
조립형 굴착기 모형을 디자인하는 사람들은 막노동하는 사람 수와 비슷하게 많아야 한다. 이렇게 되면 인공지능 공장이 완성된다.
빠르게 새로운 시장을 개척할 수 있을 것이다.
물론 이렇게 새롭게 개척한 분야는 모두 나중에 대기업에 내어줘야 한다.

하지만 몸집을 키우지 못하면,
분명 하루아침에 문을 닫아야 할 것 이다.

12.29.2019 update 이 점에서는 voyagerx 스타트업이 정말 잘하고 있다. 정세동 대표가 정말 투자를 잘 받아오는 거 같다. 기본적으로 스타트업하면 앱 하나 만들기도 버둥버둥 하고 있는데 동시에 여러 프로젝트를 가동 한다는건 자본이 없으면 불가능하다. 영상편집, 폰트, 책 스캐너 이외 다른 프로젝트가 무엇이 있는 지 궁금하다. 그리고 판단력이 가장 궁금하다. 어떠한 판단의 의해서 여러 아이디어 중 이 프로젝트들이 남았는 지 알고 싶다.

사실 이 모든 위험을 날릴 최고의 방법이 있다.
바로 민감한 데이터를 다루는 것이다.
기업내에서 파생되는 데이터는 보통 기업 안에서 남는다.
물론 인공지능 컨설팅을 받는 회사도 많지만 절대로 다른 대기업에 넘기지는 않을 것이다.
넘겼다면, 그 대기업은 분명 얼마 못 갈 것이다.
기업내에 데이터를 가두는 동시에 운영 효율성을 높이려면 각 회사마다 인공지능 사업부가 있어야 한다.
근데 세상을 내가 생각하는 것처럼 효율적으로 돌아가지 않을 때가 많다.
예를 들자면, 회사에서 위험을 가장 쉽게 줄일 방법이 있다.
금융상품을 전문적으로 다루는 트레이더를 고용하는 것이다.
왜냐하면, 금융상품을 통해 쉽게 위험을 hedge 할 수 있다.
고지식하게 만기가 있는 선물, 옵션으로 하는 게 아니라 CFD처럼 만기가 없는 많은 금융 상품을 통해 만기 위험 없이 위험을 분산할 수 있다.
하지만, 현실은 아니다.
트레이더를 따로 두는 회사는 드물다.
이와같이,
내가 제시한 답이 비현실적일 수도 있다.

하지만, 데이터 마이닝 양극화 현상은 지금도 지속되고 있다는 사실을 잊지 않았으면 좋겠다. 무슨말인지 잘 모르겠는가? 일반 경제적 양극화 현상과 비유를 하자. 일반시민과 부자에게 똑같은 100만을 주었다. 그리고 1년이 지났다. 일반시민는 수익률이 10% 였다. 하지만 100만을 받을 때 먼저 20% 세금을 때었어야 그래서 사실 10% 수익률이 마이너스가 되었다. 하지만 원칙적으로는 이익을 남긴 것이다. 그래서 또 세금을 납부했어야 됐다. 그래서 수중에 남은 돈은 88만이 채 되지 않았다. 반대로, 부자에게는 온전히 100만이 주어졌다. 세금을 미루는 방법을 알았던 덕분이다. 그리고 수완이 좋기 때문에 수익이 무려 150% 올렸다. 수익금 150만원에 대한 세금과 미뤘던 세금을 냈다. 일반시민에게 적용된 20%가 아니라 50%가 적용이 되었다. 부자에게 남는 금액은? 125만원이다. 이제 다시 데이터 마이닝으로 돌아가자. 여기서 부자는 누구인가? 구글 같은 공룡기업이다. 일반시민은? 공룡기업을 제외한 모든 기업이다. 수익률과 세금도 따져보자. 세금은 없다. 데이터 마이닝 채굴률은 140% 차이는 보다 훨씬 높다.

ps.
단순하게 뉴스에서 처럼 변호사, 회계사, 판사, 의사 ... 등등 없어질 직종이다 라고 생각하지말고 한 번 곰곰히 생각해 보아라
가장 정형화가 잘 되었고,
데이터 또한 많이 쌓였고
지속적으로 잘 쌓이는 곳이 어느 분야 인지...
맞다 바로 프로그래머가 남긴 수많은 코드들이다.
우리의 분야이다.
ㅈ...ㄷ...ㄷ...