오늘은 위키북스의 "2023 ADsP 데이터분석 준전문가 (전용문, 박현민 지음)" 의 p25~70을 공부했다. 내가 기억하려고 하는 부분만 적어본다.
[과목 #1] 2장 데이터의 가치와 미래
(1) 일반적 정의 : 양적+질적의 개념 포함. 큰 용량과 복잡성으로 기존 애플리케이션이나 툴로는 다루기 어려운 데이터셋의 집합을 의미.
(2) 가트너 정의 : 향상된 시사점과 더 나은 의사결정을 위해 사용되는 대용량, 고속 및 다양성의 특성을 가진 정보 자산.
(3) 매킨지 정의 : 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터.
(4) IDC 정의 : 대규모 데이터에서 낮은 비용으로 가치를 추출, 데이터의 초고속 수집과 발굴을 지원하도록 고안된 차세대 기술 및 아키텍처.
(5) 일본 노무라연구소 정의 : 데이터, 데이터 처리, 저장 및 분석기술에 의미 있는 정보 도출, 필요한 인재나 조직까지도 의미에 포함.
(6) 더그 래니의 정의 : 데이터의 양, 유형과 소스의 다양성, 수집과 처리 측면에서의 속도가 급격히 증가하면서 나타나는 현상.
(7) 마이어쇤베르크와 쿠키어의 정의 : 대용량 데이터를 활용해 작은 용량으로는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일.
(8) 한국데이터산업진흥원 정의 : 기존의 접근 방식으로는 얻을 수 없었던 통찰과 가치를 창출하는 모든 것
(1) 더그 래니의 3V - Volume(양), Variety(유형), Velocity(생성 및 처리 속도의 증가)
(2) 빅데이터의 새로운 특징 4V - Value(가치) 혹은 Veracity(정확성) 포함
(1) 데이터의 양적 증가
(2) 산업계의 변화
(3) 학계의 변화
(4) 관련 기술의 발전
특히 클라우드 컴퓨팅 (서버, 스토리지, 데이터베이스, 네트워킹, 소프트웨어, 분석, 인텔리전스 등의 컴퓨팅 서비스 제공)에서 빅데이터의 처리 비용을 낮추어 빅데이터 분서에 경제성을 제공함
(1) 빅데이터의 기능 (빅데이터에 거는 기대)
(2) 빅데이터가 만들어내는 변화 (후-전-양-상)
(3) 빅데이터의 등장에 따른 변화
(1) 빅데이터의 가치
(2) 빅데이터 가치 산정의 어려움 (3가지 이유)
(1) 빅데이터의 영향
(2) 빅데이터가 가치를 만들어내는 5가지 방식 (맥킨지의 빅데이터 보고서, 2011)
(1) 기업혁신 사례 : 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단 등
(2) 정부활용 사례 : 실시간 교통정보수집, 기후정보, 지질활동, 국가안전 확보활동, 의료와 교육개선에서의 활용방안 모색 등
(3) 개인활용 사례 : 정치인과 연예인의 SNS 활용 등
[빅데이터 경영혁신의 4단계]
#1 생산성 향상
#2 발견에 의한 문제 해결
#3 의사결정 향상
#4 새로운 고객가치와 비즈니스 창출
[미래의 빅데이터 활용에 필요한 3요소]
- 데이터 : 모든 것의 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언티스트, 알고리즈미스트
(1) 연관규칙 학습 (Association Rule Learning)
(2) 유형분석 (Classification Tree Analysis)
(3) 유전 알고리즘 (Genetic Algorithms)
(4) 기계학습=머신러닝 (Machine Learning)
(5) 회귀분석 (Regression Analysis)
(6) 감정분석 (Sentiment Analysis)
(7) 소셜 네트워크 분석 (SNA; Social Network Analysis)
[소셜 네트워크 분석 요소]
- 연결 중심성 : 하나의 점에 얼마나 많은 다른 점이 연결되어 있는지 나타내는 척도
- 근접 중심성 : 노드 사이의 거리를 기반으로 측정한 척도
- 매개 중심성 : 해당 노드의 위치를 파악하여 여향력 파악
- 아이겐벡터 중심성 : 해당 노드와 다른 벡터의 중심성 및 가충치 활용하여 계산하는 방식, 해당 노드와 연결된 다른 노드들이 네트워크 내에서 얼마나 중요한지 파악하는 지표
(1) 사생활 침해
(2) 책임 원칙 훼손
(3) 데이터 오용
(1) 사생활 침해의 통제 방안 : '동의'에서 '책임'으로
(2) 책임 원칙 훼손의 통제 방안 : 결과 기반 책임 원칙 고수
(3) 알고리즘 접근 허용
[개인정보 비식별 기술]
- 데이터 속에서 특정 개인을 식별할 수 있는 요인을 숨기는 기술
- 데이터 마스킹, 가명 처리, 총계 처리, 데이터 값 삭제(일부), 데이터 범주화 (범위제공)
[미연방거래위원회(FCT)의 소비자 프라이버시 보호 3대 권고사항]
(1) 기업은 상품 개발 단계에서부터 소비자 프라이버시 보호 방안을 적용
(2) 기업은 소비자에게 공유정보 선택 옵션을 제공
(3) 소비자에게 수집된 정보 내용 공개 및 접근권 부여
(1) 빅데이터에 대한 관심과 기대
(2) 빅데이터 회의론의 원인
(1) '크기'가 아니라 '인사이트'
(2) 전략적 인사이트의 중요성
아메리칸 항공 | 사우스웨스트 항공 |
---|---|
수익관리, 가격 최적화의 분석 접근법 사용, 3년만에 14억 달러의 수익을 올림 | 단순최적화 모델을 통한 가격 책정과 운영 |
초기에 비용은 일정 부분 절감했으나, 타 경쟁사들과 차별화하지 못하여 결국 수익 감소 | 차별화된 경영전략으로 36년 연속흑자 기록 |
(1) 일차원적 분석 (산업별)
산업 | 일차원적 분석 애플리케이션 |
---|---|
금융 서비스 | 산용점수 산정, 사기 탐지, 가격 책정, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석 |
에너지 | 트레이딩, 공급/수요 예측 |
병원 | 가격 책정, 고객 로열티, 수익 관리 |
정부 | 사기탐지, 사례관리, 범죄방지, 수익 최적화 |
소매업 | 판촉, 매대 관리, 수요 예측, 재고 보충, 가격 및 제조 최적화 |
제조업 | 공급사슬 최적화, 수요 예측, 재고 보충, 보증서 분석, 맞춤형 상품 개발, 신상품 개발 |
운송업 | 일정 관리, 노선 배정, 수익 관리 |
헬스케어 | 약품 거래, 예비 진단, 질병 관리 |
커뮤니케이션 | 가격 계획 최적화, 고객 보유, 수요 예측, 생산 능력 계획, 네트워크 최적화, 고객 수익성 관리 |
서비스 | 콜센터 직원 관리, 서비스-수익 사슬 관리 |
온라인 | 웹 매트릭스, 사이트 설계, 고객 추천 |
모든 산업 | 성과 관리 |
(2) 전략 도출을 위한 가치 기반 분석
(1) 데이터 사이언스에 대한 이해
(2) 데이터 사이언스의 역할
(1) 데이터 사이언스 구성 요소 : Analytics, IT, 비즈니스 분석
(2) 데이터 사이언티스트에게 요구되는 역량
Hard Skill | Soft Skill |
---|---|
빅데이터에 대한 이론적 지식 | 통찰력 있는 분석 |
분석 기술에 대한 숙련 | 설득력 있는 전달 |
다분야 간 협력 |
[가트너가 제시한 Data Scientist 요구 역량]
- 데이터 관리 : 데이터에 대한 이해
- 분석 모델링 : 분석론에 대한 지식
- 비즈니스 분석 : 비즈니스 요소에 초점
- 소프트 스킬 : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정
(1) 전략과 인사이트 도출을 위한 인문학
인문학에서 나오는 소프트 스킬을 많은 기업들이 요구함 (사고방식, 비즈니스 이슈에 대한 감각, 고객에 대한 공감 능력 등)
[외부 환경에서 본 인문학의 열풍]
외부환경 변화 컨버전스 → 디버전스 단순 세계화 → 복잡 세계화 생산 → 서비스 제품생산 → 서비스 생산 → 시장 창조 기술 경쟁 → 무형 자산의 경쟁
(2) 인문학적 사고의 특성
정량분석 + 인문학적 통찰 → 합리적 추론
구분 | 정보 | 통찰 |
---|---|---|
과거 | 무슨 일이 일어났는가? | 어떻게, 왜 일어났는가? |
현재 | 무슨 일이 일어나고 있는가? | 차선 행동은 무엇인가? |
미래 | 무슨 일이 일어날 것인가? | 최악 또는 최선의 상황은 무엇인가? |
eg. 현재의 시용리스크 모델링 (인간의 행동적 관점, 상황적 관점)
(1) 가치 패러다임
(2) 가치 패러다임의 변화
과거 | 현재 | 미래 |
---|---|---|
Digitalization | Connection | Agency |
디지털화 | 연결 | 에이전시 |
eg. 운영체제, 워드/파워포인트 등 | 구글의 검색 알고리즘, 네이버의 콘텐츠 |
(1) 데이터 사이언스의 한계
(2) 데이터 사이언티스트에게 요구되는 인문학
[빅데이터 Trend Keyword]
(1) 빅데이터와 인공지능
(2) 머신러닝 vs 딥러닝
(3) 빅데이터 플랫폼
(4) 하둡 Hadoop
(5) 하둡 에코시스템
(6) 데이터 레이크 Data Lake
(7) 마이데이터 Mydata
(8) 2020년 개정된 <개인정보보호법>
(9) 개인정보 비식별화
(10) 스마트 팩토리 Smart Factory
(11) 블록체인 Block Chain
(12) 메타버스 Metaverse
[출처]
https://datascience.aero/big-data-veracity-value/
https://www.researchgate.net/figure/The-4-Vs-big-data-properties-volume-variety-velocity-veracity-9_fig1_338516812
https://3months.tistory.com/508