1. 빅데이터의 이해
빅데이터의 정의
일반적인 빅데이터 정의
빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터다.
가트너그룹(Gartner Group)의 더그래니(Doug Laney)의 정의 (3V)
빅데이터는 데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상.
빅데이터 새로운 특징 4V
더그래니의 3V + (Value(가치)/ Veracity(정확성)/ Visualization(시각화)/ Variability(가변성))
빅데이터 정의의 범주 및 효과
기술의 변화에 따라 기존 방식으로는 얻을 수 없는 통찰 및 가치 창출
빅데이터 출현 배경
| 출현 배경 | 내용 |
|---|
| 산업계 | 고객 데이터 축적 | - 산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으로 설명할 수 있다. - 이는 양적인 변화가 축적되면 질적인 변화도 이루어진다는 개념. |
| 학계 | 거대 데이터 활용 과학 확산 | -학계에서도 빅데이터를 다루는 현상들이 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전하고 있다. |
| 기술발전 | 관련 기술의 발달 | -디지털화의 급전적, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅의 보편화와 분산처리 기술 등이 모두 빅데이터 출현과 직간접적인 관련이 있다. - 클라우드 컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춘 측면에서 그 중요성을 아무리 강조해도 지나치지 x |
ICT 발전과 빅데이터의 출현
데이터 규모 : EB >> ZB >> ZB 본격화
데이터 유형 : 정형 >> 비정형(이메일, SNS) >> 사물정보, 인지정보 (RFID, Sensor, 사물통신)
테이터 특성 : 구조화 >> 다양성, 복합성, 소셜 >> 현실성, 실시간성
빅데이터의 기능
설명으로 비유 맞추기!
| 비유 | 설명 |
|---|
| 산업혁명 석탄, 철 | 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대 |
| 21세기의 원유 | 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것 |
| 렌즈 | 현미경 처럼 빅데이터도 산업 발전에 큰 영향 ex) google Ngram Viewer, 현미경 |
| 플렛폼 | 공동의 활용 목적으로 구축된 유무형의 구조물을 말함. 다양한 서드파티 비즈니스에 활용되어 플랫폼 역할 ex) 페이스북, 카카오톡 등 |
빅데이터가 만들어내는 변화
과거 > 현재로의 변화
사전처리 > 사후처리
표본조사 > 전수조사
질 > 양
인과관계 > 상관관계
2. 데이터의 가치와 미래
1. 데이터의 가치와 영향
빅데이터의 가치
빅데이터 시대에서는 데이터 활용 방식, 새로운 가치 창출, 분석 기술 발전이라는 3가지 이유로 가치를 측정하는 것이 쉽지 않습니다.
데이터 활용 방식 : 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악할 수 가 없게 되었다. > 가치 산정 어려움
새로운 가치 창출 : 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 선정하기 어려웠음
분석 기술의 발전 : 오늘은 가치가 없는 데이터일지라도 추후 새로운 분석 기법이 등장할 경우 거대한 가치를 만들어내는 재료가 될 가능성이 있음
빅데이터가 미치는 영향 (읽어만 보세요)
빅데이터가 미치는 영향 : 생활 전반의 스마트화.
내용으로 분야 찾기
| 분야 | 영향 | 내용 |
|---|
| 기업 | 혁신, 경쟁령 제고, 생산성 향상 | 빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴 |
| 정부 | 환경탐색,상황분석, 미래 대응 | 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출 미래 대응: 법제도 및 거버넌스 시스템 정비, 미래성장 전략, 국가안보 대응 등 |
| 개인 | 목적에 따른 활용 | 정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터 활용 |
2. 비즈니스 모델
빅데이터 활용 사례 (읽고 넘어가쇼)
- 기업 혁신 사례
- 구글 : 사용자 로그 데이터 활용, 검색 기능 개발, 기존의 페이징랭크 알고리즘 혁신
- 월마트 : 고객의 구매패턴 분석 > 상품 진열에 활용 > 매출 향상
- 질병 예후 진단 및 처방 등 의료 분야에 접목
- 정부 활용 사례
- 실시간 교통정보 수집, 기후 정보, 각종 지질활동, 소방 서비스를 위한 모니터링 활용
- 국가안전 확보 활동 및 의료와 교육 개선을 위해 데이터 활용 방안 모색
- 개인
- 정치인 : 선거 승리르 ㄹ위해 사회관계망 분석을 통해 유세 지역 선정
- 가수 : 팬들의 음악 청취 기록 분석 통해 실제 공연에서 부를 노래 순서 정함
미래 빅데이터 활용에 필요한 3요소
데이터 : 모든 것을 데이터화
기술 : 진화하는 알고리즘, 인공지능
인력 : 데이터 사이언티스트, 알고리즈미스트
빅데이터 활용 기본 테크닉 7가지(중요, 각각에 대해서 어떤 것인지 알아야 함)
- 연관규칙 학습 (Association rule learning)
- 변인(변수)들 간에 상관관계 있는지 찾아내는 방법
- 연관분석 혹은 장바구니 분석이라고 불림. 고객이 구매한 물품들은 분석하여 품목 사이에 어떠한 규칙이 있는지 찾아내는 분석 기법
- 예시
- 커피를 구매하는 사람들이 탄산음료를 더 많이 사는가?
- 유형분석 (Classification tree analysis)
- 새로운 사건이 속할 범주/분류를 찾아내는 방법(이 사용자는 어떤 특성을 가진 집단에 속하는가?)
- 예시
- 문제를 어떻게 분류할 것인가?
- 조직을 어떻게 여러 그룹으로 나눌 것인가?
- 온라인 수강생들을 특성에 따라 어떻게 분류할 것인가?
- 유전 알고리즘(Genetic algorithms)
-
최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 매커니즘을 통해 점진적으로 진화(Evolve)시켜 나가는 방법
-
진화 이론에서 영감받아 개발. 유전학 개념 모방하여 해결해야하는 문제의 해를 발견하는 과정에서 개체의 집합을 진화시킴.
-
여러 세대를 반복하며 최적해, 좋은 근사해를 찾아나감
-
예시
- 응급실에서 의사를 어떻게 배치하는 게 효율적?
- 연비가 좋은 자동차 위해 원자재와 엔지니어링 어떻게 결합하는 것이 좋을까?
- 최적화된 택배 차량 배치
- 기계학습 (Machine learning)
- 훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법 ( 데이터 학습 > 예측 모형 )
- 특정한 하나의 분석 방법이 아닌 다양한 분석 알고리즘을 황용해 예측하는 분석 모델 자체를 말함. == 범위가 넓다 ( 딥러닝도 기계학습의 방법 중 하나 )
- 예시
- 시청 기록 바탕 사용자 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
- 회귀분석 (Regression analysis)
- 원인과 결과를 이용한 분석 (영향력 분석)
- 독립변수를 조작하며 종속변수가 어떻게 변하는지를 보고 두 변인(수)의 관계를 파악하는 방법
- 예시
- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가?
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 이웃들과 그 규모가 집값에 어떤 영향을 미치는가?
- 상품가격은 매출에 어떤 영향을 미치는가?
- 감정분석 (Sentiment analysis)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
- 비정형 데이터 마이닝의 대표적인 기법
- 예시
- 새로운 환불 정책에 대한 고객의 평가는 어떤가?
- 제품의 사용기에 나타난 고갱의 감정은 어떠한가?
- 소셜 네트워크 분석( SNA : Social Network Analysis)
- 사회관계망 분석으로도 불리며, 유저 사이의 관계를 분석하여 오피니언 리더, 즉 영향력 있는 사람을 찾아내는 데 활용
- 예시
- 특정인과 다른 사람이 몇 촌 정도의 관계인가?
- 이 사람의 어느 정도 영량력 있는 '인플루언서'인가?
- 고객들 간 관계망은 어떻게 구성되어 있나?
6번과 7번은 비슷해서 헷갈리니 차이를 꼭 짚고 넘어가쇼
3. 빅데이터의 위기 요인과 통제 방안
위기 요인
- 사생활 침해
- 개인정보 포함 데이터 목적 외 활용 할 경우 사생활 침해 위협을 넘어 사회/경제적 위협으로 변형
- 익명화 기술이 아직 충분하지 않다
- 우리는 하루에도 많이 수집당하고 있다
- 예시
- 여행 사실을 SNS 올린 사람을 대상으로 빈집털이를 시도한 강도 사건 발생
- 조지 오웰이 1984에서 다루었던 상황, 빅브라더가 사람의 일상생활 전반을 감시할 수 있는 기술적 기반이 빅데이터 시대를 통해 구축 가능성 있다.
- 책임 원칙 훼손
- 빅데이터 기반 분석/예측 발전하면서 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성 존재
- 민주주의는 명확한 결과에 대한 책임을 묻고 있다. 특정인이 빅데이터 분석 결과에 따라 특정 행위 할 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는 민주주의 사회 원칙 크게 훼손
- 예시
- 범법 행위뿐 아니라 회사의 직원 해고, 의사 환자 수술 거절, 배우자 이혼 소송제기 같은 상황에서도 훼손될 수 있다
- 어떤 사람이 특정 사회/경제적 틍성을 가진 집단에 속한다는 이유로 자신의 신용도와 무관하게 '부당히'대출 거절 상황도 알고리즘 예측 피해 사례
- 데이터 오용
- 데이터 과신 / 잘못된 지표의 사용으로 인사이트를얻어 적용할 경우 직접 손실 발생 가능
- 빅데이터는 과거 데이터기 떄문에 이를 바탕으로 미래 예측 위험할 수 있다
- 예시
- 스티브잡스는 제품 개발할 때 사람들의 의견을 묻지 않았다. 일반적으로 필요로 하는 것은 현실에 대한 인식에 버팀
- 포드가 자동차 - 사람들에게 물었다면 더 빠른 말이 필요하다는 대답을 했을 것이라는 비유
통제 방안
- 사생활 침해 > 동의에서 책임으로
- 개인정보 제공자의 동의를 통해 해결보다 개인정보 사용자의 책임으로 해결
- 챔임 원칙 훼손 > 결과 기반 책임 원칙
- 데이터 오용 위기 대응 > 알고리즘 접근권 허용/인증
- 알고리즘 접근구너 제공해서 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문
- 불이익 당한 사람들 대변할 알고리즈미스트가 필요
미국연방거래위원해(FTC)의 소비자 프라이버시 보호 3대 권고사항
- 기업은 상품 개발 단계에서 소비자 프라이버시 보호 방안 적용 (Privacy by Design)
- 기업은 소비자에게 공유 정보 선택 옵션 제공(Simplified Choice for Business and Consumers)
- 소비자에게 수집된 정보 내용 공개 및 접근권 부여(Greater Transperency)
4. 미래의 빅데이터
빅데이터 활용 3요소
데이터 : 모든 것을 데이터화.
기술 : 대용량의 데이터를 빠르게 처리하기 위한 알고리즘의 진화와 함께 인공지능 기술이 출현하였다.
인력 : 데이터 사이언티스트, 알고리즈미스트 역할 > 빅데이터 다각적 분석을 통한 인사트 도출
참고 : 비식별 기술의 종류와 예
개인정보 비식별 기술
데이터 마스킹 : ADsP 자격증 > *|||자격증
가명 처리 : 한지민 > 김우빈
총계처리 : 10점,20점,30점 > 평균 20점
테이터값 삭제 : 서울시 강남구 > 서울시
데이터 범주화 : 29세 > 20~30세
3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 - 읽고 넘어가기
1. 빅데이터 분석과 전략 인사이트
빅데이터 열풍과 회의론
빅데이터 회의론 원인
- 과거 CRM의 부정적 학습효과 (도입 해놨는데 어떻게 가치창출 하는지 모르더라)
- 과대 포장 (기본 분석 성공 사례를 빅데이터 성공 사례로 포장)
빅데이터 분석, 'Big'이 아닌 인사이트
크기가 아닌 인사이트
- 데이터는 크기가 아니라 어떤 인사이트(의미있는 정보)를 얻을 수 있냐의 문제
- 비즈니스 핵심가치 집중하고, 관련 분석 평가 지표 개발해 효과적으로 대응할 수 있을 때 빅데이터 분석은 가치가 있다.
- 빅데이터 걸림돌은 '비용'이 아니라 '분석적 방법과 성과에 대한 이해 부족'이다
전략적 인사이트의 중요성
- 데이터분석 많이 사용한다고 경쟁우위 도달x
- 경쟁의 본질을 파악못하는 분석은 쓸모없는 결과만 만들어냄.
- 따라서 전략적인 통찰력으로 핵심 비즈니스에 집중해 데이터를 분석하고 차별적 전략으로 기업 운영해야 함
일차원적 분석 VS (전략 도출 위한)가치 기반 분석
일차원적 분석 사례로 어떤 산업인지 분류
| 산업 | 일차원적 분석 애플리케이션 |
|---|
| 금융_서비스 | 신용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 |
| 에너지 | 트레이딩, 공급/수요 예측 |
| 병원 | 가격 책정, 고객 로열티, 수익관리 |
| 정부 | 사기 탐지, 사례관리, 범죄 방지, 수익 최적화 |
| 소매업 | 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 |
| 제조업 | 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 삼품 개발, 신상품 개발 |
| 운송업 | 일정 관리, 노선 배정, 수익관리 |
| 헬스케어 | 약품 거래, 예비 진단, 질병 관리 |
| 커뮤니케이션 | 가격 계획 최적화, 고객 보유, 수요 예측, 생산능력 계획, 네트워크 최적화, 고객 수익성 관리 |
| 서비스 | 콜센터 직원 관리, 서비스/수익 사슬 관리 |
| 온라인 | 웹 매트릭스, 사이트 설계, 고객 추천 |
| 모든사업 | 성과 관리 |
전략 도출 위한 가치 기반 분석
- 일차원적 분석으로도 해당 업무 영역에서 효과 얻으 수 있다. 하지만 대부분 업계 내부 문제에만 포커스를 두고 있으며, 주로 부서 단위로 관리되기 때문에 비즈니스 성공에 핵심적 역할을 기대하기는 어렵다. 부서 단위로 분석을 접근하거나 업계로 한정해 바라보면 성공 가능성 또한 좁아지기 쉽다.
- 일차원적 분석을 통해 점점 분석 경험 늘리고 작은 성공을 거두면 분석 활용 범위롤 더 넓고 전략적으로 변화시킴. 전략적 인사이트 주는 가치 기반 분석 단계로 나아가야 함. 이 단계의 분석은 경쟁의 본질에 영향을 미치고 기업 경쟁 전략을 이끌어 갈 수 있다.
- 사업 성과를 견인하는 요소들과 차별화를 이룰 수 있는 기회에 대해 전략적 인사이트가 주는 가치 기반 분석 단계로 나아가야 함
2.전략 인사이트 도출을 위한 필요 역량
데이터 사이언스의 의미와 역할
데이터 사이언스
- 데이터 사이언스는 데이터로부터 의미 있는 정보를 추출해내는 학문
- 통계학-정형화 실험 데이터를 분석 대상, 데이터 사이언스-정형/비정형 막론 인터넷,휴대폰,카메라 등 생성되는 숫자와 문자, 영상정보 등 다양한 유형 데이터를 대상
- 위키피디아에선 데이터 사이언스를 '데이터공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문'으로 정의 하기도 함
데이터 사이언스의 역할
- 데이터 사이언티스트는 비즈니스 성과를 좌우하는 핵심요소를 정확히 셔냥할 수 있어야 하며, 이는 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유.
데이터 사이언스와 데이터 사이언티스트 이부분 별표 한개
데이터 사이언스의 핵심 구성 요소 (객관식 세개 자주 나옴)
- Analytics : 분석적 영역
-> 수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
- IT (Data Management) : 데이터 처리와 관련된 IT영역
-> 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
- 비즈니스 분석 : 비즈니스 컨설팅 영역
-> 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등
데이터 사이언티스트의 요구 역량 ( 별표 한개 )
- hard Skill
- 빅데이터에 대한 이론적 지식 (관련 기법에 대한 이해와 방법론 습득)
- 분석 기술에 대한 숙련 ( 최적의 분석 설계 및 노하우 축적)
- Soft Skill
- 통찰력 있는 분석 (창의적 사고, 호기심, 논리적 비판)
- 설득력 있는 전달 (스토리텔링, 비주얼라이제이션)
- 다분야 간 협력 (커뮤니케이션)
가트너가 제시한 데이터 사이언티스트의 요구 역량 (이것도 나옴)
- 데이터 관리 : 데이터에 대한 이해
- 분석 모델링 : 분석론에 대한 지식
- 비즈니스 분석 : 비즈니스 요소에 초점
- 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
데이터 사이언스 : 과학과 인문의 교차로
기업 경영 전략 수립하는데 사고방식, 비즈니스 이슈에 대한 감각, 고객들에 대한 공감능력 등의 소프트 스킬이 필요한데 이 스킬은 인문학에서 나온다.
이를 두고 데이터 사이언스는 과학과 인문학의 교차로에 있다.
전문가들은 데이터 사이언티스트에게 스토리텔링, 커뮤니케이션, 창의력,열정,직관력,비판적 시각, 글쓰기 능력, 대화 능력 등이 필요하다고 강조.
| 외부환경 | 변화 | 예시 |
|---|
| 컨버전스 ->디버전스 | 세계화의 맥락 : 단순한 세계화 -> 복잡한 세계화 | 규모의 경제, 세계화, 표준화, 이성화 -> 복잡한 세계, 다양성, 관계, 연결성, 창조성 |
| 생산->서비스 | 비즈니스의 중심:제품 생산->서비스 | 고장나지 않는 제품 생산->뛰어난 서비스로 응대 |
| 생산->시장 창조 | 경제와 산업의 논리:생산->시장 창조 | 생산관련 기술 경쟁, 기술 중심의 대규모 투자-> 현지 사회와 문화에 관한 ㅈ식, 무형 자산의 경쟁 |
- 인문학적 사고의 특성 ( 이부분 객관식 많이 나옴 )
| 구분 | 정보 | 통찰 |
|---|
| 과거 | 무슨 일이 일어났는가? ex. 보고서 작성 등 | 어떻게, 왜 일어났는가? ex. 모델링, 실험 설계 |
| 현재 | 무슨 일이 일어나고 있는가? ex.경고 | 차선 행동은 무엇인가? ex.권고 |
| 미래 | 무슨 일이 일어날 것인가? ex. 추측 | 최악 또는 최선의 상황은 무엇인가? ex. 예측, 최적화, 시뮬레이션 |
- 신용리스크 모델링에 인문학적 통찰력 적용 사례
- 현재 신용리스크 모델링은 인간의 타고난 성향 기준이 아닌 인간을 행동적 관점에서 바라봄. 따라서 대출금 갚을 수 있는지 여부는 그 사람 이전 신용행동을 근거로 판단
- 신용리스크 모델링에 인문학적 통찰력 적용
- 인간을 과거 사실에 기초한 행동적 관점이 아닌 상황적 관점으로 바라봄. > 상황적 관점을 반영할 수 있는 데이터를 추가로 발굴해 반영해야 함.
3.빅데이터 그리고 데이터 사이언스의 미래
가치 패러다임의 변화
가치 패러다임이란 경제와 산업 원천에 있는 가치에 대한 패더라임을 의미함. 신기술과 상품, 서비스가 그 시기의 가치 패러다임과 맞아 떨어질 때 성공함. 지식경제 기간에 국한해서 살펴보면, 가치 패러다임의 변화는 크게 3단계로 구분 가능.
(이 부분만 보면 됨)
과거 > 현재 > 미래
Digitalization>Connection>Agencty
| 패러다임 | 설명 |
|---|
| 디지털화 | 아날로그 세상을 어떻게 효과적 디지털화 하는가가가 이 시대의 가치를 창출해내는 원천 ex) 운영체제, 워드/파워포인트 같은 오피스 프로그램 |
| 연결 | 디지털화된 정보와 대상들이 서로 연결되어 이 연결이 얼마나 효과적이고 효율적으로 제공되느냐가 이 시대의 성패를 가름 ex)구글의 검색 알고리즘 |
| 에이전시 | 사물인터넷(IoT)의 성숙과 함께 연결이 증가하고 복잡해짐. 복잡한 연결을 얼마나 효과적이고 믿을 수 있게 관리하는가. 데이터 사이언스의 역량에 따라 좌우됨. |
pc 등장으로 정보들이 디지털화 됨.
디지털화 된 정보들은 연결되고
연결되면서 많은데이터가 증가되니 관리가 필요.