데이터 사이언스 개요

cosmosJ·2024년 2월 1일

데이터 분석

목록 보기
2/26
post-thumbnail

데이터 사이언스란?

과학적, 논리적 사고를 바탕으로 기술력과 융합하여 다양한 형태의 데이터(ex. 이미지, 텍스트, 수치 등)로 부터 새로운 지식이나, 인사이트를 도출하는 과정

데이터는 위처럼 수치, 이미지 등으로 분류할 수도 있지만, 정형, 비정형, 반정형으로 구분할 수도 있다.

빅데이터 정의 (6V)

데이터 사이언스는 빅데이터가 발전함에 따라 발전하였기에, 데이터 사이언스를 살핌에 앞서, 그 배경이 되는 빅데이터의 정의를 우선 살펴본다.

  • Technoloy, Hardware, Infra 관점 (3V - 초기 정의)
    • Volume (크기) : 대용량 데이터 (사용되는 데이터의 증대)
    • Velocity (속도) : 일반 처리 및 실시간 처리 (배치성 처리 => 실시간 처리)
    • Variety (다양성) : 정형, 비정형, 반정형 데이터 (정형 데이터 => 모든 데이터)
  • Business, Software, Analytics 관점
    • Veracity (진실성) : 데이터 품질 및 신뢰성 확보 (공급되는 데이터에 대해 실제 쓸만한 가치 있는 데이터는 얼마나 있는가?)
    • Value (가치) : 궁극적 비즈니스 가치 창출 (데이터를 얼마나 가치 있게 활용하는가?)
    • Visualization (시각화) : 복잡한 결과의 시각화 표현 (데이터를 분석하여 간단하게 시각화 해 효율적인 비지니스 의사 결정을 함.)

➡️ 현재 빅데이터 정의는 더욱 확장되어 7V 등의 개념도 등장했다.

데이터 분석 환경의 변화

과거(전통적 환경, 빅데이터 환경 구분)와 달라진 현재의 데이터 분석 환경을 비교를 통해 알아본다.

전통적인 환경빅데이터 환경현재 (AI 환경)
데이터량이 많아지면, 기존의 DB를 교체빅데이터 환경에서는 서버를 병렬 처리로 add-on서버를 병렬 처리로 add-on
상용 소프트웨어를 기반으로 일부 정형 데이터 샘플링, 작은 데이터 분석다양한 형태의 All data를 오픈소스 기반(ex. python, R)이용하여 분석다양한 형태의 All data를 AI를 통해 기존보다 복잡한 연산 기반 알고리즘 및 더 많은 양의 데이터를 활용할 수 있는 환경이 제공됨.
내부/정적 데이터 활용내부/반정형/동적 데이터 활용내,외부/비정형(이미지 등) 데이터 활용

➡️ 즉, 기존에 비해 더 많은 양을 데이터를 더 복잡하고, 효율성있게 다룰 수 있는 AI 환경이 등장하면서,

  • 기존에 다루지 못한 형태의 데이터를 다룰수 있게 되었으며,
  • 더 많은 양의 데이터를 사용할 수 있게 되었고,
  • 더 복잡한 알고리즘을 바탕으로 분석할 수 있는 환경이 제공되어, 기존에 하지 못했던 인사이트 및 지식을 도출할 수 있게 되었다.

Data scientist 정의

  • 데이터 사이언티스트
    : 다양한 산업 내 다양한 형태의 빅데이터를 가공, 분석하여 새로운 가치를 창출하는 자.

  • 시티즌 데이터 사이언티스트
    : 특정 도메인 내의 데이터 사이언티스트 (자신의 전문 분야에서의 데이터 분석을 통해 가치 창출자.) => 전문적인 고급 데이터 분석가는 아니지만, 데이터 분석 기술을 일부 활용하여 자신의 영역의 비즈니스 영역 결과를 개선하는 자.

데이터 분석 프로세스

과제 수행 준비 (project Initiation)데이터 준비 (Data Preparation)데이터 분석 (Data Analytics)분석 결과 암호화 (Output)자산화 (Knowledge)
방향성 제시, 커뮤니케이션/협의활용 데이터 검토, 데이터 전처리탐색적 데이터 분석, 분석 모델링인사이트 도출, 결과의 통역/전개응용/설계/운영화
주제 성립, 업무 Scope 정의 등데이터 정의, 데이터 정제/변형 등탐색적 데이터 분석, 통계/ML/DL 분석 등분석 결과 해석, 활용 방안 제시자동화 설계, 운영 방안 도출
Analytic Knowledge, LeadershipComputer Science, Data ManipulationMathematics, Statistics, Data MiningVisualization, Presentation, ApplicationDomain Knowledge, Marketing Knowledge

상세 분석 프로세스

  • 프로젝트 수행 준비 (Pre-initiation)

    • 현업 AS-IS 현황 파악
    • 핵심 카테고리 도출
  • 요구사항 수집 (Access Situation)

    • 핵심 카테고리 선정 및 Key 이슈 도출
    • 담당부서 인터뷰 기반 요구사항 수집 및 분석
  • AS-IS 분석

    • 현황 및 요건 정의
      • 검토 영역 선정
      • 현황/요건별 데이터 레벨 매핑 등 수행
      • 분석 관점의 수행 타당성/가능성 진단
  • TO-BE 도출

    • 분석 과제 도출
      • 주요 이슈 기반 Pain 및 개선 Point 도출
      • 각 Point 별 분석 주제 제언 및 주제별 수행 요건/방향성 정의
  • 분석 대상 데이터 수집/처리

    • 데이터 정의
      • 주제별 대상 데이터 정의
      • 데이터 품질 체크
      • 데이터 정제 및 전처리 수행
  • 탐색적 데이터 분석

    • 데이터 탐색
      • 주제별 EDA 수행
      • 유의미한 인사이트 도출 및 정리
  • 고급 데이터 분석

    • 분석모델 개발
      • 최종 target 모델 개발
      • 모델 검토 및 정합성 검증
    • 시각화
      • 분석 결과 시각화
  • 결과 기반 활용 방안 제안

    • 결과 보고
      • 분석 결과 최종 보고
      • 관련 부서 대상 Analytics 관점 내 활용 방안 제언
profile
백엔드, Data Science, AI 분야 학습 내용을 정리하는 블로그입니다.

0개의 댓글