<데이터 천재들은 어떻게 기획하고 분석할까?>

인덱스·2023년 3월 12일
0
post-thumbnail

공부를 하고 보니 더 많이 보이는 책

데이터는 가치value를 만드는 인사이트의 재료가 되는 것이다.

데이터는 사실에 기반한 객관성을 가지고 있기에, 저마다의 넘치는 세상에서 객관성을 가지고 액션을 취할 수 있게 하는 가장 효과적인 도구이다.

결국 분석을 통해 도출한 인사이트를 가지고 지향하는 바는 더 나은 의사결정이다.

하나의 선명한 문제에 부딪혔을 때 그 의사결정을 선진화하는 것, 조금 더 체계적인 근거를 가지고 현명한 의사결정을 하는 것, 이것이 궁극적인 목표라고 할 수 있겠다.


빅데이터 가치를 만드는 과정은 빅데이터 프로젝트의 기회plan, 데이터 분석을 통한 이사이트 도출do, 도출된 인사이트의 확인check, 마지막으로 인사이트에 따른 실행act의 단계로 이루어진다.

첫째, 먼저 최종 목적이 무엇인지를 생각한 후 이를 이루기 위한 수단을 파악해야 한다. 문제를 발견하고 추구하는 가치를 파악하는 것이다. 즉, 내가 어디를 갈 것인지, 왜 가야 하는지를 생각한 후에 자동차 시동을 거는 일과 같다.

둘째, 이러한 가치를 창출하는 데 필요한 인사이트가 무엇일지 '상상'해야 한다. 인사이트는 현재 존재하지 않으므로 상상력을 발휘해야 한다.

마지막으로 구체적으로 정한 인사이트를 도출하는 데 필요한 데이터는 무엇인지 식별할 필요가 있다. 특히, 필요한 데이터를 이미 확보하고 있는지의 여부가 매우 중요하다. 확보하고 있다면 곧바로 접근해서 검토해야 한다. 내가 생각한 그 데이터가 맞는지, 양과 질이 충분한지 파악해야 하는 것이다.

빅데이터 기획은 빅데이터 프로젝트의 최종 목표인 가치를 설정하고, 필요한 인사이트와 확보 가능한 데이터 정의를 하는 것이다.


의사결정자는 빅데이터 분석의 메뉴판을 읽을 수 있어야 한다. 바로 최소한의 빅데이터 분석에 대한 지식이 필요하다.

실제 각자 업무 분야에서 중요한 가치를 줄 수 있는 '가치-인사이트-데이터'로 이어지는 기획을 수행한 후, 자신이 수립한 기획에 따라 실제 데이터를 확보하여 애널리틱스 방법으로 인사이트까지 도출하는 것이다.


'포뮬레이션'이란 비즈니스 문제를 데이터 마이닝/머신러닝 문제로 변환하는 것이다. 문제를 양식화하는 것인데 특정 데이터 마이닝 프레임워크에 맞춘다는 의미이다.


데이터 시각화는 데이터에 숨은 이야기를 시각적으로 탐색해서 의사결정자에게 통찰을 제공한다. 이로써 세상의 모든 흐름과 추세가 한눈에 데이터를 통해 드러나면서 효율적인 판단과 결정이 가능해지는 것이다.

데이터는 정보 또는 숫자를 의미하고, 시각화는 정보를 눈에 보이게 표시하는 일이다. 데이터 시각화를 활용할 때 핵심은 복잡한 것을 간단하게 보여주는 것이다.

데이터를 시각화하면, 관계와 추세를 찾을 수 있다. 시각화된 숫자는 기억하기도 쉽다.

숫자를 공간에 배치해서 그 패턴을 인지하는 것이 바로 데이터 시각화다.

한눈에 볼 수 있게 데이터 시각화 자료가 제공되면 의미 전달이 원활해지고, 따라서 회의 시간이나 의사결정 시간을 단축할 수 있다.

결국 비즈니스 데이터라는 것은 상품과 서비스에 대한 거래 기록이다.

비즈니스 데이터의 가장 큰 특징은 대용량이라는 것이다. 따라서 기존의 저장 기법과는 다르게 데이터 분석 목적으로 데이터웨어하우스 또는 데이터마트를 구축한다.

시각화와 OLAP(On Line anaylical processing)인데, OLAP는 사용자가 대용량 데이터를 쉽고 다양한 관점에서 분석할 수 있도록 지원하는 비즈니스 인텔리전스 Business Intelligence 기술이다.

'데이터를 보는 눈'을 기르려면 다양한 데이터셋data set을 경험해봐야 한다. 유통업의 POS데이터, 휴대폰의 CDR 데이터, 신용카드사의 결제내역 데이터, 물류/교통의 출발/도착지Origin Destination, OD 데이터 분석을 통해 비즈니스 운영 및 주요 성과지표를 알아보고, 각 지표값의 범위를 체득하고 있어야 한다.


실제 Y값과 모델에서부터 나온 Y값의 차이를 오차라고 부르며, 이 식을 손실함수 loss function라고 한다. 즉 실제 Y값과 모델로부터 나온 Y값의 차이가 손실이고, 이를 표현한 함수를 손실함수라고 하는 것이다.

비용함수는 손실함수들의 합(혹은 평균)의 형태라고 보면 된다.

다중선형회귀 모델에서 파라미터를 찾는 알고리즘을 최소 제곱 추정 알고리즘(least square estinmation alorithm)이라고 한다.

군집화는 주어진 데이터로부터 서로 유사한 개체끼리 또는 특징끼리 묶어 전체를 몇 개의 비슷한 그룹으로 묶는 것을 나타낸다. 이와 같은 방법으로 군집을 찾는 것을 군집분석cluast analysis이라고 한다.

소비성향이 비슷한 고객을 전체 고객을 세분화할 수 있다면, 마케팅에 있어 투자 대비 수익률이 높을 것이다. 이는 군집분석이 잘 활용된 예라고 할 수 있다.

각 군집 간의 특징은 서로 구별이 되어야 한다. 하나로 묶인 군집 내에서 특징이 비슷하게 나타나고, 서로 다른 군집에서는 개체의 특징이 다르게 발현되어야 군집화를 잘한 것이 된다.

효율적인 유사도 측정과 군집분석을 위해서는 각 데이터의 특징에 알맞은 거리함수를 선택하는 것이 중요하다.


작년 말에 읽었을 때와 지금, 두 시점에서 책을 통해 얻는 것이 확실히 다르다. 처음 읽었을 때는 지금까지 공부해온 개념들을 책에서 발견하면서 반가운 마음이 들어 신이 났었고 모르는 개념이 나오면 공부할 수 있다며 좋아했었다. 이번 기회에 다시 읽었을 때는 데이터 너머 더 많은 것들이 보이기 시작했다.

처음 데이터란 세계에 발을 들였을 때는 도구와 기술을 우선적으로 생각했다. 할 줄 아는 게 없으니 빨리 그것들을 나의 것으로 만들어서 더 많은 것을 바라볼 수 있는 시각을 갖고 싶었다. 다행히 스킬과 툴이라고 하는 것들이 다양한 기회를 가져다주긴 했지만 결국 중요한 것이 해결하고 싶은 문제와 데이터를 통해 그 해결 방법을 찾는 것이었다.

언어와 도구에 대한 공부는 도메인에 대한 공부와 적절한 균형을 맞추어야 한다. 빅데이터를 통해서만 해결할 수 있을 것 같다고 생각했던 문제들이 연륜이라는 데이터로부터 나오는 직관이나 산업에 대한 깊은 이해로부터 해결되기도 한다. 물론 검증은 필요하고 그에 데이터 분석이 강력한 도구이기도 하지만.

학문으로 접근할 때와 실제로 경험하고 있는 데이터의 갭이 확실히 있다. 비즈니스란 결국 시간문제인 것 같다는 생각도 든다. 빠르게 효율적으로 최대한의 결과물을 만들어내서 소통해야 한다. 그러니 공부해온 개념과 이론들을 적재적소에 써먹을 수 있게 체화하고 끊임없이 탐구하고 매달려야 한다.

profile
헤맨 만큼 내 땅이 된다

0개의 댓글