수업 목표
- 빅데이터에 대한 이해를 바탕으로 다가올 변화에 대해 학습
01. 빅데이터의 이해
- 빅데이터의 정의와 출현 배경, 기능을 학습
- 빅데이터가 가져오는 변화 이해
1) 빅데이터의 이해
빅데이터 정의
- 일반적인 빅데이터 정의
- "빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터다.”(McKinsey, 2011)
- IDC 정의
- 데이터 규모보다 분석 비용 및 기술에 초점을 맞춘 정의
- "빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집과 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처다.” (2011)
- 일본의 노무라연구소 정의
- 데이터와 데이터 처리, 저장 및 분석 기술에 의미 있는 정보 도출에 필요한 인재나 조직까지도 빅데이터라는 개념에 포함시킬 것을 제안
- 가트너그룹(Gartner Group)의 더그래니(Doug Laney)의 정의 (3V) ★
- 빅데이터는 데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상이다.
- 메이어-쇤베르거와쿠키어 (Mayer-Schönberger&Cukier)
- "빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일이다."
- 빅데이터를 보는 관점에 따른 정의
- 첫째, 3V로 요약되는 데이터 자체의 특성 변화에 초점을 맞춘 좁은 범위의 정의가 있다.
- 둘째, 데이터 자체뿐 아니라 처리, 분석 기술적 변화까지 포함하는 중간 범위의 정의가 있다.
- 셋째, 인재, 조직 변화까지 포함해 빅데이터를 넓은 관점으로 정의하는 방식이 있다.
- 빅데이터의 새로운 특징 4V ★
- 더그 래니의 3V에 추가로 Value(가치) 또는 veracity(정확성)를 포함해 4V로 빅데이터의 특징을 설명하기도 함
- 여기에 Visualization(시각화), Variability(가변성) 등을 추가하는 견해도 있음
빅데이터 정의의 범주 및 효과
- 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출
- 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도
2) 빅데이터 출현 배경
- 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 '변화'를 의미함
- 빅데이터 출현 배경을 모두 설명하는 것은 불가능에 가까운 일이지만 산업계, 학계, 기술발전을 둘러싼 환경 변화 측면에서 배경을 논의해 볼 수 있음
3가지 출현 배경 ★
- 산업계: 고객 데이터 축적
- 산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으로 설명할 수 있음
- 양적인 변화가 축적되면 질적인 변화도 이루어진다는 개념
- 학계: 거대 데이터 활용 과학 확산
- 학계에서도 빅데이터를 다루는 현상들이 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전함
e.g. 게놈 프로젝트, NASA의 기후 시뮬레이션 등
- 기술발전: 관련 기술의 발달
- 디지털화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보편화와 분산처리 기술 등이 모두 빅데이터 출현과 직간접적 관련이 있음
- 클라우드 컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춘 측면에서 그 중요성을 아무리 강조해도 지나치지 않음
ICT 발전과 빅데이터의 출현
3) 빅데이터 기능과 변화
빅데이터의 기능 ★
- 빅데이터는 ‘산업혁명의 석탄, 철’
- 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대
- 빅데이터는 ‘21세기의 원유’
- 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 전망
- 빅데이터는 ‘렌즈’
- 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 빅데이터도 산업 발전에 큰 영향을 미칠 것으로 기대
e.g. 구글의 Ngram Viewer, 현미경
- 빅데이터는 ‘플랫폼’
- 공동 활용의 목적으로 구축된 유무형의 구조물을 말하며, 다양한 서드파티 비즈니스에 활용되어 플랫폼 역할을 할 것으로 기대
e.g. 페이스북, 카카오톡 등
빅데이터가 만들어내는 변화 ★
과거에서 현재로의 변화
- 사전처리 → 사후처리
- 기존 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서가능한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 인사이트를 발굴
- 표본조사 → 전수조사
- 데이터 수집 비용의 감소와 클라우드 기술의 발전으로 데이터 처리 비용이 감소하게 되면서 데이터 활용 방법이 전수조사로 변화
- 질 → 양
- 수집 데이터의 양이 증가할 경우 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 둠
- 인과관계 → 상관관계
- 신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 그에 상응하는 행동을 추천하는 일이 점점 늘어남
02. 데이터의 가치와 미래
- 빅데이터의 가치와 정부, 개인 등에 미치는 영향을 살펴보고 위기 요인과 통제 방안 이해하기
1) 빅데이터의 가치와 영향
빅데이터의 가치 산정이 어려운 이유 ★
- 빅데이터 시대에서는 데이터 활용 방식, 새로운 가치 창출, 분석 기술 발전이라는 3가지 이유로 가치를 측정하는 것이 쉽지 않음
- 데이터 활용 방식
- 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악할 수 없게 되었으며 따라서 가치 산정이 어려워졌음
- 새로운 가치 창출
- 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 산정하기 어려워졌음
- 분석 기술의 발전
- 오늘은 가치가 없는 데이터일지라도 추후 새로운 분석 기법이 등장할 경우 거대한 가치를 만들어내는 재료가 될 가능성이 있음
빅데이터의 영향
- 빅데이터가 미치는 영향 : 생활 전반의 스마트화
분야 | 영향 | 내용 |
---|
기업 | 혁신, 경쟁력 제고, 산성 향상 | 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴 |
정부 | 환경 탐색, 상황분석, 미래 대응 | 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출* 미래 대응 : 법제도 및 거버넌스 시스템 정비, 미래성장 전략, 국가안보 대응 등 |
개인 | 목적에 따른 활용 | 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용 |
- 빅데이터가 가치를 만들어내는 방식 (맥킨지의 빅데이터 보고서, 2011)
- 투명성 제고로 연구개발 및 관리 효율성 제고
- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화
- 고객 세분화 및 맞춤 서비스 제공
- 알고리즘을 활용한 의사결정 보조 혹은 대체
- 비즈니스 모델과 제품, 서비스의 혁신 등
2) 비즈니스 모델
빅데이터 활용 사례
- 기업혁신 사례
- 구글 : 사용자의 로그 데이터를 활용하면서 검색 기능 개발, 기존의 페이지랭크(PageRank) 알고리즘을 혁신
- 월마트 : 고객의 구매패턴을 분석해 상품 진열에 활용 (→ 매출 향상)
- 질병 예후 진단 및 처방 등 의료 분야에 접목
- 정부 활용 사례
- 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링 활용 - 국가안전 확보 활동 및 의료와 교육 개선을 위해 빅데이터 활용 방안 모색
- 개인
- 정치인 : 선거 승리를 위해 사회관계망 분석을 통해 유세 지역 선정
- 가수 : 팬들의 음악 청취 기록 분석을 통해 실제 공연에서 부를 노래 순서를 짜는데 활용
💡 참고 ! 알아두면 좋은 내용 👀☆
미래의 빅데이터 활용에 필요한 3요소
- 데이터 : 모든 것을 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트
빅데이터 활용 기본 테크닉 7가지 ★
- 연관규칙 학습 (Association rule learning)
- 변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
- 연관분석 혹은 장바구니 분석으로도 불리며, 고객이 구매한 물품들을 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
- 예시
- 커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
- 우유 구매자가 기저귀를 더 많이 구매하는가?
- 유형분석 (Classification tree analysis)
- 새로운 사건이 속할 범주/분류를 찾아내는 방법 (이 사용자는 어떤 특성을 가진 집단에 속하는가?)
- 예시
- 문서를 어떻게 분류할 것인가?
- 조직을 어떻게 여러 그룹으로 나눌 것인가?
- 온라인 수강생들을 특성에 따라 어떻게 분류할 것인가?
- 유전 알고리즘 (Genetic algorithms)
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화(Evolve)시켜 나가는 방법
- 진화 이론에서 영감을 받아서 개발되어 유전학의 개념을 모방하여 해결해야하는 문제의 해를 발견하는 과정에서 개체의 집합을 진화시킴
- 여러 세대를 반복하며 최적해, 좋은 근사해를 찾아나감
- 예시
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
- 연비가 좋은 자동차를 개발하기 위해서 원자재와 엔지니어링을 어떻게 결합하는 것이 좋을까?
- 최적화된 택배 차량 배치
- 기계학습 (Machine learning) cf. 딥러닝: 머신 러닝의 한 갈래
- 훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법 (데이터 학습 → 예측 모형)
- 특정한 하나의 분석 방법이 아닌 다양한 분석 알고리즘을 활용해 예측하는 분석 모델 자체를 말함 == 범위가 넓다 (딥러닝도 기계학습의 방법중 하나)
- 예시
- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
- 스팸메일 필터링에 사용
- 질병 진단 예측
- 회귀분석 (Regression analysis)
- 원인과 결과를 이용한 분석(영향력 분석)
- 독립변수를 조작하며 종속변수가 어떻게 변하는지를 보고 두 변인의 관계를 파악하는 방법
- 예시
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
- 상품가격은 매출에 어떤 영향을 미치는가?
- 감정분석 (Sentiment analysis)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
- 비정형 데이터 마이닝의 대표적인 기법
- 예시
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
- 제품의 사용기에 나타난 고객의 감정은 어떠한가?
- 소셜 네트워크 분석 (SNA; Social Network Analysis)
- 사회관계망 분석으로도 불리며, 유저 사이의 관계를 분석하여 오피니언 리더, 즉 영향력 있는 사람을 찾아내는 데 활용
- 예시
- 특정인과 다른 사람이 몇 촌 정도의 관계인가?
- 이 사람이 어느 정도 영향력 있는 ‘인플루언서’인가?
- 고객들 간 관계망은 어떻게 구성되어 있나?
3) 빅데이터의 위기 요인과 통제 방안
위기 요인
- 사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 위협을 넘어 사회/경제적 위협으로도 변형될 수 있음
- 익명화 기술이 발전되고 있으나 아직도 충분하지 않음
- 우리는 하루에도 셀 수 없을 만큼 많이 수집당함 → CCTV, 핸드폰 기록, …
- 예시
- 여행 사실을 SNS에 올린 사람을 대상으로 빈집털이를 시도한 강도 사건 발생
- 조지 오웰이 1984에서 다루었던 상황, 빅브라더가 사람들의 일상생활 전반을 감시할 수 있는 기술적 기반이 빅데이터 시대를 통해 구축될 가능성이 있다
- 책임 원칙 훼손
- 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가
- 민주주의 국가에서는 잠재적 위협이 아닌 명확한 결과에 대한 책임을 묻고 있음 → 특정인이 빅데이터의 분석 결과에 따라 특정한 행위를 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 민주주의 사회 원칙을 크게 훼손
- 예시
- 범법 행위뿐 아니라 회사의 직원 해고, 의사의 환자 수술 거절, 배우자의 이혼 소송 제기와 같은 상황에서도 훼손될 수 있음
- 어떤 사람이 특정한 사회/경제적 특성을 가진 집단에 속한다는 이유로 자신의 신용도와 무관하게 ‘부당하게’ 대출이 거절되는 상황도 알고리즘 예측의 피해 사례가 될 수 있음
- 데이터 오용
- 데이터 과신 혹은 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생할 수 있음
- 빅데이터는 과거 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 위험
- 예시
- 스티브 잡스는 제품을 개발할 때 사람들의 의견을 묻지 않았다. 일반적으로 필요로 하는 것은 현실에 대한 인식에 바탕을 두고 있기 때문이다
- 포드(Ford)가 자동차를 만들려고 했을 때 사람들의 의견을 물었다면 사람들은 자동차가 아닌 ‘더 빠른 말’이 필요하다는 대답을 했을 것이라는 비유를 들었다
- 베트남 전쟁, 적군의 사망자 수로 전쟁의 승리를 예측하는 오류
통제 방안
- 사생활 침해의 통제 방안 → ‘동의에서 책임으로’
- 개인정보 제공자의 ‘동의’를 통해 해결하기보다 개인정보 사용자의 ‘책임’으로 해결한다는 방안
- 개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임을 지므로 사용 주체의 적극적인 보호장치를 강구할 수 있음
- 책임 원칙 훼손의 통제 방안 → ‘결과 기반 책임 원칙 고수’
- 기존의 원칙을 좀 더 보강하고 강화할 필요가 있으며 예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치를 마련하는 것이 필요
- 특정인의 ‘성향’에 따라 처벌하는 것이 아닌 ‘행동 결과’를 보고 처벌
- 데이터 오용의 위기요소에 대한 대응책 → ‘알고리즘 접근권 허용/인증’
- 알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문
- 불이익을 당한 사람들을 대변할 전문가 알고리즈미스트(Algorithmist)가 필요해짐
💡 참고 ! 알아두면 좋은 내용 👀
미국 연방거래위원회(FTC)의 ‘소비자 프라이버시 보호 3대 권고사항’
- 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용 (Privacy by Design)
- 기업은 소비자에게 공유 정보 선택 옵션 제공(Simplified Choice for Business and Consumers)
- 소비자에게 수집된 정보 내용 공개 및 접근권 부여 (Greater Transparency)
4) 미래의 빅데이터
빅데이터 활용의 3요소 ★
- 데이터
- 모든 것을 데이터화하는 추세로 특정 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해져 새로운 가치로 부상
- 기술
- 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능 기술이 출현
- 인력
- 빅데이터를 처리하기 위한 데이터 사이언티스트와 알고리즈미스트의 역할을 통해 빅데이터의 다각적 분석을 통한 인사이트 도출이 중요해짐
참고: 비식별 기술의 종류와 예
- 개인정보 비식별 기술이란?
- 데이터 속에서 특정 개인을 식별할 수 있는 요인을 숨김으로써 개인을 알아볼 수 없도록 하는 기술
비식별기술 | 설명 | (예시) Before → After |
---|
데이터 마스킹 | 데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 식별할 수 없는 임의의 값으로 대체 | ADsP자격증 → 자격증 |
가명처리 | 데이터의 값을 다른 값으로 변경하는 기술. 일정한 규칙이 노출되지 않도록 주의 | 한지민 → 김우빈 |
총계처리 | 데이터의 총합 또는 평균 값을 보여주며 개별 데이터 값을 보이지 않도록 하는 기술 | 10점, 20점, 30점 → 평균 20점 |
데이터값 삭제 | 필요 없거나 개인 식별에 중요한 값을 삭제 | 서울시 강남구 → 서울시 |
데이터 범주화 | 데이터의 값을 범주화하여 특정 값을 숨기는 기술 | 29세 → 20세~30세 |
03. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
- 빅데이터 열풍 속에서 가치 기반 분석이 가지는 의미, 중요성에 대해 이해
1) 빅데이터 분석과 전략 인사이트
빅데이터 열풍과 회의론
최근 빅데이터에 대한 관심과 기대가 매우 높아졌지만 동시에 ‘빨리 끓어 오른 냄비가 빨리 식는다’는 일종의 거품현상을 우려하는 시선도 존재함 → 벌써부터 빅데이터 회의론이 심심찮게 흘러나오고 있음
- 빅데이터 회의론의 원인
- 과거 CRM의 부정적 학습효과
- 과거 공포 마케팅이 잘 통해서 CRM 같은 솔루션이 반드시 도입되어야 하는 것으로 강조되었으나 막대한 비용을 지불하여 빅데이터 시스템을 구축했어도 어떻게 가치를 창출해야 할지 난감한 상황이 연출되었음
- 과대 포장
- 기존 분석 성공 사례를 빅데이터 성공사례로 포장한 것이 많음
- 예를 들어, 굳이 빅데이터가 필요 없는 ‘기존의 우수 고객, 이탈 고객 예측 분석’ 등의 분석을 빅데이터 분석인 것 마냥 과대 포장함
빅데이터 분석, 'Big'이 아닌 'Insight'
- 크기가 아닌 ‘인사이트’
- 데이터는 크기가 아니라 어떤 시각과 인사이트(의미있는 정보)를 얻을 수 있느냐의 문제
- 비즈니스의 핵심가치에 집중하고 이와 관련된 분석 평가 지표를 개발하고 이를 통해 효과적으로 시장과 고객의 변화에 대응할 수 있을 때 빅데이터 분석은 가치가 있음
- 빅데이터와 관련된 걸림돌은 ‘비용’이 아니라 ‘분석적 방법과 성과에 대한 이해 부족’
- 전략적 인사이트의 중요성
- 단순히 데이터 분석을 많이 사용한다고 경쟁우위에 도달하지 않음
- 분석이 경쟁의 본질을 제대로 바라보지 못할 때는 쓸모없는 결과만 만듦
- 이를 예방하기 위해 전략적인 통찰력을 가지고 핵심적인 비즈니스에 집중하여 데이터를 분석하고 차별적인 전략으로 기업을 운영해야 함
사례 분석
- 싸이월드 사례: 왜 싸이월드는 페이스북이 되지 못했나?
싸이월드는 2004년 당시만 해도 세계 최대의 SNS 서비스였습니다. 하지만 경영진이 깊이 있는 데이터 분석을 수행하기보다 직관력에 의존했던 문제점 때문에 역사의 뒤안길로 사라지고 말았습니다.
구글, 페이스북 등은 대부분 데이터 분석과 함께 시작되고 그 분석 내용이 내부 의사결정에 결정적 정보를 제공하지만, 싸이월드는 경영 의사결정이 깊이 있는 데이터 분석에 기초해 이루어지지 않았습니다.
- 싸이월드 실패 요인 요약
- OLAP 같은 분석 인프라는 있었지만 중요한 의사결정이 데이터 분석에 기초하지 못했음
- 사업 상황 확인을 위한 협소한 문제에만 집중
- 회원들의 특성 분석에 관한 프레임워크나 평가 지표조차 제대로 만들지 않음
- 트렌드 변화가 사업에 미치는 영향을 알아차리지 못함
- 페이스북 성공 요인
- 사용자의 니즈를 반영한 대화 중심의 플랫폼을 지향
- 모바일 트렌드에 발맞춰 모바일 소통을 위한 플랫폼을 지향함으로써 시장의 니즈를 반영
- 개인정보의 노출범위를 사용자가 직접 통제하도록 하여 스스로를 지킬 수 있게 함
- 서비스 정착 이전까지 광고를 배제한 스마트한 비즈니스 모델을 활용함
- 전략적 통찰이 없는 분석의 함정, 미국 항공사 사례
아메리칸항공, 사우스웨스트항공 모두 데이터 분석을 하여 주요 의사결정에 활용했지만, 전략적인 인사이트 도출 여부의 차이로 그 성과는 달라졌습니다. 단순히 분석을 많이 사용하는 것이 곧바로 경쟁우위를 가져다주지는 않는다는 사실을 알 수 있습니다. 분석이 경쟁의 본질을 제대로 바라볼 수 있게 하려면 전략적인 통찰력을 가지고 분석하여 기업을 운영해야 합니다.
아메리칸항공 | 사우스웨스트항공 |
---|
수익 관리, 가격 최적화의 분석 접근법 사용 → 3년 만에 14억 달러의 수익을 올림 | 단순최적화 모델을 통한 가격 책정과 운영 |
비행경로와 승무원들의 일정을 최적화 → 12개 기종, 250개 목적지, 매일 3,400회 운항 ⇒ 초기에는 수익절감에 성공했지만, 타 경쟁사들이 비슷한 수준의 수익관리 모델을 갖추면서 경쟁우위에서 하락 | 한 가지 기종의 비행기로 단순화 ⇒ 단순 최적화로 가격 책정 및 운영 결과 경쟁우위가 상승 →36년 연속 흑자, 미국 항공사들의 시장가치를 합친 것보다 높은 시장가치 확보 |
일차원적인 분석 vs 전략 도출 위한 가치 기반 분석 ★
각 산업에 따라 우리가 흔히 수행하는 일차원적인 분석 사례에 대해 먼저 살펴보겠습니다.
산업별 일차원적인 분석
산업 | 일차원적 분석 애플리케이션 |
---|
금융 서비스 | 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 |
에너지 | 트레이딩, 공급/수요 예측 |
병원 | 가격 책정, 고객 로열티, 수익관리 |
정부 | 사기 탐지, 사례관리, 범죄 방지, 수익 최적화 |
소매업 | 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발 |
운송업 | 일정 관리, 노선 배정, 수익관리 |
헬스케어 | 약품 거래, 예비 진단, 질병 관리 |
커뮤니케이션 | 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리 |
서비스 | 콜센터 직원 관리, 서비스/수익 사슬 관리 |
온라인 | 웹 매트릭스, 사이트 설계, 고객 추천 |
모든 사업 | 성과관리 |
출처 : 분석의 기술 2011, 21세기북스
전략 도출 위한 가치 기반 분석
- 일차원적인 분석을 통해서도 해당 부서나 업무 영역에서는 상당한 효과를 얻을 수 있습니다. 하지만 대부분 업계 내부의 문제에만 포커스를 두고 있으며, 주로 부서 단위로 관리되기 때문에 비즈니스 성공에 핵심적인 역할을 기대하기는 어렵습니다.
- 은행의 경우, 대출 이자와 한도를 결정하는 리스크 관리 부서에서 분석 도구 및 분석적 접근 방법을 활용합니다. 부서 단위로 분석을 접근하거나 업계로 한정해 바라본다면 성공 가능성 또한 좁아지기 쉽습니다.
- 일차원적인 분석을 통해 점점 분석 경험을 늘려가고 작은 성공을 거두면 분석의 활용 범위를 더 넓고 전략적으로 변화시킴으로써 전략적 인사이트를 주는 가치 기반 분석 단계로 나아가야 합니다. 이 단계에 도달하면 분석은 경쟁의 본질에 영향을 미치고 기업의 경쟁 전략을 이끌어갈 수 있습니다.
- 사업 성과를 견인하는 요소들과 차별화를 이룰 수 있는 기회에 대해 전략적 인사이트를 주는 가치 기반 분석 단계로 나아가야 합니다.
2) 전략 인사이트 도출을 위한 의미와 역할
데이터 사이언스의 의미와 역할
‘데이터 사이언스 (Data Science)’ 하면 무엇이 떠오르세요? 사실 데이터 사이언스는 아직 우리에게 생소한 용어입니다. 우리나라의 데이터 분석 수준과 빅데이터 열풍이 아직 초보 수준에서 벗어나지 못했기 때문에 빅데이터란 용어 유행에 비해 데이터 사이언스에 대한 대중의 관심은 낮습니다. 데이터 사이언스의 개념에 아직 명확하게 정의돼 있지는 않지만 학문적으로 엄밀한 내용과 형식을 갖추고 있는 것도 아닙니다. 데이터 사이언스에 대해 간단히 살펴보면 아래와 같습니다.
데이터 사이언스에 대한 이해
- 데이터 사이언스는 데이터로부터 의미 있는 정보를 추출해내는 학문
- 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 함
- 위키피디아에서는 데이터 사이언스를 ‘데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문’으로 정의
데이터 사이언스의 역할
- 데이터 사이언티스트는 비즈니스의 성과를 좌우하는 핵심요소를 정확하게 겨냥할 수 있어야 함 → 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유
데이터 사이언스와 데이터 사이언티스트 ★
데이터 사이언스의 핵심 구성요소
- Analytics: 분석적 영역
→ 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
- IT (Data Management) : 데이터 처리와 관련된 IT 영역
→ 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
- 비즈니스 분석 : 비즈니스 컨설팅 영역
→ 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
데이터 사이언티스트의 요구 역량 ★★
💡 참고 하면 좋을 내용 👀
- 가트너가 제시한 데이터 사이언티스트 요구 역량
- 데이터 관리 : 데이터에 대한 이해
- 분석 모델링 : 분석론에 대한 지식
- 비즈니스 분석 : 비즈니스 요소에 초점
- 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
데이터 사이언스 : 과학과 인문의 교차로
데이터 사이언스가 수행하는 전략적 통합을 주는 문서는 단순한 통제나 데이터 처리와 관련된, 지식만으로 이루어지지 않습니다. 기업들이 경영전략을 수립하는 데는 사고방식, 비즈니스 이슈에 대한 감각, 고객들에 대한 공감능력 등의 소프트스킬이 필요한데, 이 소프트 스킬은 인문학에서 나옵니다. 이를 두고 ‘데이터 사이언스는 과학과 인문학의 교차로에 있다’고 말합니다.
그래서 세계적인 데이터 사이언스 전문가들은 데이터 사이언티스트에게 스토리텔링, 커뮤니케이션, 창의력, 열정, 직관력, 비판적 시각, 글쓰기 능력, 대화 능력 등이 필요하다고 강조하고 있습니다.
통찰력 있는 분석
- 직관과 전략, 경영 프레임워크 경험의 혼합을 통해 통찰력 있는 분석을 수행할 수 있어야 함
- 전체 업계의 방향과 고객이 무엇을 중시하는지에 대한 이해가 필요
- 좁은 시각으로 나무만 보는 것이 아니라 넓은 시각으로 숲을 볼 수 있어야 함
- 단순히 정보를 활용하는 정도의 수준을 넘어 사업 성과를 좌우하는 핵심적인 문제에 대답할 수 있는 수준의 인사이트를 제시해야 함
외부 환경적인 측면에서 본 인문학의 열풍
외부 환경 | 변화 | 예시 |
---|
컨버전스 → 디버전스 | 세계화의 맥락 : 단순한 세계화 → 복잡한 세계화 | 규모의 경제, 세계화, 표준화, 이성화 → 복잡한 세계, 다양성, 관계, 연결성, 창조성 |
생산 → 서비스 | 비즈니스의 중심 : 제품 생산 → 서비스 | 고장나지 않는 제품 생산 → 뛰어난 서비스로 응대 |
생산 → 시장 창조 | 경제와 산업의 논리 : 생산 → 시장 창조 | 생산 관련 기술 경쟁, 기술 중심의 대규모 투자 → 현지 사회와 문화에 관한 지식, 무형 자산의 경쟁 |
인문학적 사고의 특성 ★
구분 | 정보 | 통찰 |
---|
과거 | 무슨 일이 일어났는가? | 어떻게, 왜 일어났는가? |
| e.g. 보고서 작성 등 | e.g. 모델링, 실험 설계 |
현재 | 무슨 일이 일어나고 있는가? | 차선 행동은 무엇인가? |
| e.g. 경고 | e.g. 권고 |
미래 | 무슨 일이 일어날 것인가? | 최악 또는 최선의 상황은 무엇인가? |
| e.g. 추측 | e.g. 예측, 최적화, 시뮬레이션 |
적용 사례: 신용리스크 모델링에 인문학적 통찰력 적용
- 현재의 신용리스크 모델링
- 현재 신용리스크 모델링은 인간의 타고난 성향을 기준으로 하는 것이 아닌 인간을 행동적 관점에서 바라본다
- 따라서 대출금을 갚을 수 있는지 여부는 그 사람의 이전 신용행동을 근거로 판단한다
- 신용리스크 모델링에 인문학적 통찰력을 적용
- 인간을 과거 사실에 기초한 행동적 관점이 아닌 상황적 관점으로 바라본다
- 신용리스크 모델링의 예측력을 높이기 위해 상황적 관점을 반영할 수 있는 데이터를 추가로 발굴해 반영해야 한다
- 이를 위해서는 ‘어떤 데이터가 더 필요하다’, ‘어떤 기술을 활용해야 할 것인가’라는 질문에 중요한 가이드를 제공해야 한다
3) 빅데이터 그리고 데이터 사이언스의 미래
가치 패러다임의 변화 ★
가치 패러다임이란, 경제와 산업의 원천에 있는 가치에 대한 패러다임을 의미합니다. 많은 신기술과 상품, 서비스가 그 시기의 가치 패러다임과 맞아떨어질 때 성공을 거두게 됩니다. 지식경제 기간에 국한해서 살펴보면, 가치 패러다임 변화는 크게 3단계로 구분할 수 있습니다.
- 디지털화
- 아날로그의 세상을 어떻게 효과적으로 디지털화하는가가 이 시대의 가치를 창출해 내는 원천
- e.g. 운영체제, 워드/파워포인트 같은 오피스 프로그램
- 연결
- 디지털화된 정보와 대상들이 서로 연결되어 이 연결이 얼마나 효과적이고 효율적으로 제공되느냐가 이 시대의 성패를 가름
- e.g. 구글의 검색 알고리즘, 네이버의 콘텐츠
- 에이전시
- 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡해짐복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가가 이슈이며, 데이터 사이언스의 역량에 따라 좌우됨
데이터 사이언스의 한계와 인문학
- 데이터 사이언스의 한계
- 분석과정에서 가정 등 인간의 해석이 개입되는 단계를 반드시 거침
- 데이터 분석은 100% 완벽하지 않다는 한계가 반드시 존재함
- 하지만 정보가 뒷받침되지 않는 직관보다는 낫다
- 데이터 사이언티스트에게 요구되는 인문학
- 인문학자들처럼 모델의 능력에 대해 항상 의구심을 가지고, 가정과 현실의 불일치에 대해 끊임없이 고찰하고, 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 주시해야 함
- 그럴 때 비로소 빅데이터에 묻혀 있는 잠재력을 풀어내고, 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘 가능
기출 문제 내용 정리
- 빅데이터가 만들어 내는 변화: 사후처리, 전수조사, 양, 상관관계
- 빅데이터 출현 배경
- 데이터 분석 비용 문제 해결 → 클라우드 컴퓨팅
- 데이터 저장 비용 문제 해결 → 하드 드라이브의 가격 하락
- 빅데이터의 기능: 산업혁명의 석탄, 21세기의 원유, 플랫폼, 렌즈
- 빅데이터의 위기 요인: 사생활 침해, 책임 원칙의 훼손, 데이터 오용
- 데이터의 가치 산정이 어려운 이유
- 개인정보 비식별 기술: 데이터 마스킹, 가명처리, 총계처리, 데이터값 삭제, 데이터 범주화
- 산업별 일차원적 분석 사례
- 프로그램 트레이딩, 클레임 분석 → 금융분석
- 트레이딩, 수요/공급 예측 → 에너지
- 데이터 사이언스 특징
- 데이터 사이언티스트의 요구 역량