데이터사이언스 개요

Kyung Jae, Cheong·2022년 8월 30일
1

데이터사이언스의 개요를 정리해본 글

데이터 사이언스의 정의

  • 빅테이터를 지식으로 만드는 과정
  • 데이터의 추출,통합,보간,해석,추론,의사결정 모두를 포함함
  • 데이터공학 + 통계학/머신러닝 + 실무경험/지식
  • 데이터사이언스 ⊃ 인공지능(AI) ⊃ 머신러닝 ⊃ 딥러닝

데이터 공학(Engineering)

  • 데이터의 수집, 저장, 관리에 대한 과정
  • MySQL, AWS, Hadoop, Hive 등..

데이터 마이닝(Mining)

  • 데이터의 분석, 지식발견에 대한 과정
  • 통계학, 머신러닝, 인공지능 등이 여기에 포함
  • Python, R, SAS, TenserFlow 등..

데이터마이닝 종류

  • 탐색적분석
    • 요약(표)
    • 시각화(그래프)
  • 수리적분석
    • 지도학습(Target,Y변수,종속변수가 존재함. 예측이 목적)
      • 분류(Target이 이산형, 속성에 따라 둘 이상의 유형으로 나눔)
      • 회귀(Target이 연속형, 관계에 따라 예측을 함)
    • 비지도학습(X변수간의 관계를 봄. 특징분석이 목적)
      • 군집분석(특성에 따라 유사한 집단의 세분화)
      • 차원축소(높은 차원의 데이터셋의 차원을 줄이는 과정)
      • 연관규칙학습(데이터셋과 item의 관계를 If-then 형식으로 찾는 과정)
    • 강화학습
      • 행동심리학에서 영향을 받은 머신러닝의 영역
      • 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택

데이터사이언스 프로젝트 전반적 프로세스

  • 과제발굴
    • 업무, 과제에 대한 이해
  • 데이터수집(데이터공학)
    • 데이터전처리
    • 변환,정제,통합
  • 데이터분석(데이터마이닝)
    • 탐색적분석(시각화)
    • 수리적분석(지도,비지도)(통계분석,머신러닝)
  • 결과도출
    • 결과 시각화
    • 해석
    • 예측
profile
Machine Learning Engineer ( AI Engineer )

0개의 댓글