NOTE
- 이 시리즈는
『데이터 분석을 위한 SQL 레시피』 가사키 나가토, 다미야 나오토 저. 한빛미디어
를 통해 공부하는 내용을 저의 언어로 기록해두기 위해 만들어졌습니다.
(밤 12시 넘어서 공부해서 포스트 게시 날짜가 다음 날로 넘어갔지만 봐주세요..)
[1장] 빅데이터 시대에 요구되는 분석력이란?
[1강] 데이터를 둘러싼 환경의 변화
[접근 분석 도구의 등장]
- 최근에야 '빅데이터', '데이터 사이언티스트' 등의 용어가 많이 보이지만, 2010년 즈음만 해도 '접근 분석', '웹 애널리스트'라는 용어가 데이터 관련 용어로 더 많은 주목을 받았다고 한다.
- 필자는 2000년 정도에 웹 서버에 설치한 접근 분석 도구를 사용하며 데이터 다운 데이터를 처음 접해봤다고 하는데, 그때 한 분석은 로그 기반 Page View 추이 집계 정도였다고 한다.
- 그러다가 2005년 등장한 게 바로 Google Analytics!!
구글 애널리틱스는 그 전에는 파악하기 어려웠던 다양한 지표를 제공하며 중요한 접근 분석 도구로 자리 잡았다고 한다.
- (지금도 많은 마케터들의 사랑을 받는 구글 애널리틱스가 이렇게 센세이셔널하게 나왔었구먼.. 상상해보건데 가히 혁명적이었겠다.)
- 구글 애널리틱스를 기점으로 점차 많은 접근 분석도구가 나오기 시작했고 다양한 사례가 누적되며 웹 애널리스트라는 직업이 주목을 받기 시작했다고 함.
- 그러나 데이터가 여기 저기 다양한 형태로 흩어지게 되며 한꺼번에 관리하고 분석하기에는 한계가 많았다고 한다. 지금도 프로세스가 미흡한 회사 가면 똑같지. 그런 혼돈의 카오스 상태를 생각하면 될 것 같다.
이러한 상황에서 많은 회사가 관련성 있는 좀 더 많은 데이터를 한꺼번에 관리하고 분석할 수 있는 환경을 원하기 시작하면서, 빅데이터
가 주목받기 시작했다.
[빅데이터의 등장]
- 빅데이터는 데이터 수집, 집계, 시각화를 통해 다양한 분야에 활용될 수 있는데, 이전에도 이러한 니즈와 작업은 있었지만 특히 컴퓨팅 파워가 향상되는 등의 환경의 변화에 따라 더 주목을 받게 되었다고 한다.
- 빅데이터 전문가 송길영 부사장님이 그런 말을 했던게 생각난다. 자기는 처음에 빅데이터라는 단어도 없을 때 일을 시작했고, 그냥 같은 일을 10년 했을 뿐인데 어느새 빅데이터란 단어가 생기고 자기가 눈에 띄는 전문가가 되어있었다고.. 인생이란~
- 분산 처리를 담당하는 미들웨어의 등장도 큰 역할을 했는데, 이러한 미들웨어로는 Apache Hadoop, Google Bigquery, Amazon Redshift 등이 있다고 한다.
- 분산 처리가 뭔지는 헷갈려서 찾아봤다. (글) 하나의 서버, 하나의 컴퓨터에서 처리하는게 아니라 그걸 분산하여 여러 서버가 네트워킹하면서 같은 목적으로 일을 해주는 거라고 이해하면 될 것 같다)
- 이렇게 많은 데이터를 한꺼번에 관리할 수 있게 되면서 이전에 여러 한계로 할 수 없었던 분석들이 가능해졌다. 그 예시로 책에서 여러 개를 들고 있는데, 쉽게 생각해 지금 내가 할 수 있고 해봤던 그 모든 걸 생각하면 될 것 같다.
(내 나이를 생각하면 난 빅데이터 내이티브에 가깝다고 할 수 있는 거 같기도)
즉, 2000년대 초반에 다양한 접근 분석 도구의 등장으로 확장되었던 데이터 분석의 영역이, (컴퓨팅 파워 증가 등의 다양한 요인에 의한) 빅데이터의 등장으로 한 번 더 크게 확장되었다고 기억하면 될 것 같다.