1과목 2장
2절 빅데이터 가치의 영향
3절 비즈니스 모델
- 연관분석(연관규칙학습)
- 시스템 로그 데이터를 분석해 침입자나 유해 행위자를 색출할 수 있는가?
- 커피를 사는 사람들이 탄산음료도 많이 구매하는가?
- 우유 구매자가 기저귀도 같이 구매하는가?
- 기저귀 구매자가 맥주도 같이 구매하는가?
- 유형분석
- 문서를 분류하거나 조직을 그룹으로 나눌 때, 온라인 수강생들을 특성에 따라 분류할 때 사용
- 이 사용자는 어떤 특성을 가진 집단에 속하는가?
- 유전 알고리즘(유전자 알고리즘)
- 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법
- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
- 회귀분석
- 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
- 감성분석(감정분석)
- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
- 소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아낼 때 활용
- 호텔에서 고객의 논평을 받아 서비스를 개선하기 위해 활용
- 소셜네트워크분석(사회관계망분석)
4절 위기 요인과 통제 방안
✅ **빅데이터 위기 요인과 해결 방안**
- 사생활 침해
- e.g. 익명화(Anonymity) 기술 발전 필요
- 동의제를 책임제로 전환 → 개인정보 사용자가 책임을 지게 된다.
- 책임 원칙 훼손
- e.g. 범죄 예측 프로그램을 통해 범죄 전 체포
- 기존의 책임 원칙 강화
- 데이터 오용
- 데이터 알고리즘에 대한 접근권 허용
✅ **개인정보 비식별화 기법**
- 데이터 마스킹(Masking) : 다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는 프로세스 (e.g. 카드 뒤 4자리 숨기기, 주민번호 뒤 6자리 숨기기 등)
- 데이터 범주화(Recording) : 변수가 가질 수 있는 가능한 값들을 몇 개의 구간으로 범주화
- 가명 : 개인식별 정보를 알아볼 수 없는 형태로 변환
- 잡음 첨가 : 자료의 값에 잡음을 추가하거나 곱하는 등 원래 자료에 약간의 변형을 가하여 공개
5절 미래의 빅데이터
✅ **미래의 빅데이터**
- 미래의 빅데이터는 데이터, 기술, 인력이라는 세 가지 측면에서 볼 수 있다.
- 데이터는 M2M, IoT 등이 확산되고 이 데이터는 사업자의 비즈니스 모델이 될 것이다.
- 기술 측면에서는 알고리즘이 더욱 혁신적으로 진화되어 인공지능이 빅데이터를 분석하는 시대로 나아가게 될 것이다.
- 인력 측면에서는 빅데이터 가치를 실현해 줄 데이터 사이언티스트의 역할이 중요해지고, 빅데이터로 인해 발생하는 문제를 중간자 입장에서 중재하며 해결해주는 알고리즈미스트도 부상하게 될 것이다.
1과목 3장
1절 빅데이터 분석과 전략 인사이트
✅ **일차원적인 분석 애플리케이션 사례**
- 금융 서비스 : 신용점수 산정, 사기 탐지, 고객 수익성 분석
- 소매업 : 재고 보충, 수요 예측
- 제조업 : 맞춤형 상품 개발, 신상품 개발
- 에너지 : 트레이딩, 공급/수요 예측
- 온라인 : 웹 매트릭스, 사이트 설계, 고객 추천
2절 전략적 인사이트 도출을 위한 필요 역량
✅ **데이터 사이언스**
- 데이터 공학(Data Engineering), 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문이다.
- 데이터 사이언스란 데이터로부터 의미있는 정보를 추출해내는 학문이다.
- 정형 또는 비정형을 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 하며, 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념이다.
- 데이터 사이언스의 핵심 구성요소로는 IT 영역, 분석적 영역, 비즈니스 컨설팅 영역이 있다.
- 통계학이 정형화된 데이터를 분석 대상으로 하지만 데이터 사이언스는 다양한 데이터 유형을 대상으로 한다.
- 데이터 사이언스가 기존 통계학과 다른 점은 총체적(holistic) 접근법을 사용한다는 점이다.
- 데이터 사이언스는 과학과 인문학의 교차로에 서 있다고 할 수 있다.
✅ **데이터 사이언티스트의 역량**
- 가트너 언급 :
데이터 관리, 비즈니스 분석, 분석 모델링, 소프트 스킬 → 하드 스킬 없음
- 데이터 사이언티스트는 데이터 해커, 애널리스트, 커뮤니케이션, 신뢰받는 어드바이저 등의 조합이라 할 수 있다.
- 강력한 호기심이야말로 데이터 사이언티스트의 중요한 특징이라고 할 수 있다.
- 하드 스킬과 소프트 스킬 능력을 동시에 갖추고 있어야 한다. 데이터 사이언티스트들은 주로 데이터 처리나 분석 기술과 관련된 하드 스킬만을 요구 받는 것처럼 보인다. 하지만 이러한 하드 스킬은 훌륭한 데이터 사이언티스트가 갖춰야 하는 능력의 절반에 불과하다. 나머지 절반은 통찰력 있는 분석, 설득력 있는 전달, 협력 등 소프트 스킬이다.
- 하드 스킬(머신러닝, 모델링, Data Technical Skill 등)
- 빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
- 분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
- 소프트 스킬
- 통찰력 있는 분석 : 창의적 사고, 호기심, 논리적 비판
- 설득력 있는 전달 : 스토리텔링, Visualization
- 다분야간 협력 : 커뮤니케이션
- 데이터 처리 기술 이외에 사고방식, 비즈니스 이슈에 대한 감각, 고객들에 대한 공감 능력이 필요하다.
- 데이터 사이언티스트가 효과적 분석모델 개발을 위해 고려해야 하는 사항
- 분석모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 돌아보고 분석을 경험과 세상에 대한 통찰력과 함께 활용한다.
- 가정과 현실의 불일치에 대해 끊임없이 고찰하고 모델의 능력에 대해 항상 의구심을 갖는다.
- 분석의 객관성에 의문을 제기하고 분석모델에 포함된 가정과 해석의 개입 등의 한계를 고려한다.
- 모델 범위 바깥의 요인은 판단하지 않는다.
✅ **최근 사회경제적 환경의 변화(인문학 열풍의 이유)**
- 단순 세계에서 복잡한 세계로의 변화 :
다양성과 각 사회의 정체성, 연결성, 창조성 키워드 대두
- 비즈니스의 중심이 제품 생산에서 서비스로 이동 :
고객에게 얼마나 뛰어난 서비스를 제공할 수 있는지 여부가 관건
- 경제와 산업의 논리가 생산에서 시장창조로 변화 :
무형자산이 중요
3절 빅데이터 그리고 데이터 사이언스의 미래
1) 빅데이터의 시대
- 디지털 환경의 진전과 더불어 실로 엄청난 ‘빅’ 데이터가 생성되고 있다. (2011년 전 세계에서 생성되는 디지털 정보량은 1.8 제타바이트)
- 빅데이터 분석은 선거 결과에 결정적인 영향을 미칠 수도 있다. 기업의 측면에서는 비용 절감, 시간 절약, 매출 증대, 고객서비스 향상, 신규 비즈니스 창출, 내부 의사결정 지원 등에 있어 상당한 가치를 발휘하고 있다.
2) 데이터 사이언스의 한계와 인문학
- 데이터 사이언스의 한계
- 분석 과정에서는 가정 등 인간의 해석이 개입되는 단계를 반드시 거친다.
- 분석 결과가 의미하는 바는 사람에 따라 전혀 다른 해석과 결론을 내릴 수 있다.
- 아무리 정량적인 분석이라도 모든 분석은 가정에 근거한다는 사실이다.
- 데이터 사이언스와 인문학
- 인문학을 이용하여 빅데이터와 데이터 사이언스가 데이터에 묻혀 있는 잠재력을 풀어내고, 새로운 기회를 찾고, 누구도 보지 못한 창조의 밑그림을 그릴 수 있는 힘을 발휘하게 될 것이다.
회고
많은 정보량으로 어렵긴했지만 기초 정보에 관한내용들이라 몇번 반복하여 읽고 예시문제를 풀다보면 쉬운 성취를 이룰이 있을 것 같은 부분이였다. 기초가 있었다면 이라는 아쉬움이 남았다