Data Science & Data Analysis 개요

Kyung Jae, Cheong·2023년 3월 20일
0
post-thumbnail

데이터 사이언스란?

  • 빅데이터를 지식으로 만드는 과정
  • 데이터의 추출, 통합, 보간, 해석, 추론, 의사결정 등 데이터 처리의 모든 부분을 포함하는 개념

데이터사이언스의 3가지 구성요소

  • 컴퓨터공학(Computer Science)
  • 수학/통계학(Math/Statistics)
  • 실무경험/지식(Domain Knowledge)
  • 즉, 데이터사이언스는 '도메인 빅데이터'에 '통계' 와 'IT 기술'을 접목시킨 학문

데이터사이언스의 세부 분야

  • 데이터사이언스 ⊃ 인공지능(AI) ⊃ 머신러닝 ⊃ 딥러닝
    • 데이터사이언스는 데이터 수집, 분석, 배포에 이르기 까지 데이터 분야의 거의 모든 개념을 포함하는 학문임
    • 인공지능(AI)은 컴퓨터에서 음성 및 작성된 언어를 보고 이해하고 번역하고 데이터를 분석하고 추천하는 기능을 포함하여 다양한 고급 기능을 수행할 수 있는 일련의 기술로써 데이터사이언스에 포함되는 세부 분야 중 하나라 볼 수 있음
    • 머신러닝은 인공지능의 하위개념이며, 딥러닝은 머신러닝 기법들 중 인공신경망을 통해 구현된 특정한 기술을 의미함

데이터 분야의 직무

  • 데이터를 전문적으로 다루는 직무는 크게 다음과 같이 분류해 볼 수 있음

데이터 엔지니어(Data Engineer)

  • 데이터의 수집 및 데이터베이스 구축, 학습 모델의 배포 등의 데이터 공학 분야의 작업을 전문적으로 수행하는 직무
  • 데이터베이스 관련 기술(RDBMS, NoSQL), 분산처리기술(Hadoop, Spark), 서비스 배포 관련 기술(Flask, Django) 등의 역량이 요구됨
    • 백엔드 개발자의 업무와 겹치는 경우가 많지만, 주된 차이점은 데이터분석가나 데이터사이언티스트가 필요로하는 데이터를 생산하고 저장하고 제공하는 역할에 특화되어 있어서 머신러닝이나 딥러닝과 같은 데이터사이언스 지식도 어느정도는 필요한 직군이라는 점

데이터 분석가(Data analysis)

  • 데이터 시각화 분석과 비즈니스 인사이트 도출을 전문적으로 수행하는 직무
    • 프로덕트 분석가, 비즈니스 분석가 등 다양한 이름으로 불리기도 함
  • 데이터 추출 및 수집(SQL, NoSQL), 데이터분석(Python, R), 시각화(Plotly, Looker, Tableau) 등의 역량이 요구됨
    • 무엇보다 시각화 능력이 가장 중요한 역량이라 볼 수 있는 직군이며, 인사이트 도출을 위한 풍부한 도메인 지식도 함께 요구되는 직군이라 볼 수 있음

데이터 사이언티스트(Data Scientist)

  • 어떠한 의미에서는 데이터 수집, 분석, 모델링, 배포 등 모든 단계를 수행하는 직군으로 정의할 수도 있지만, 일반적으로 데이터사이언티스트는 데이터 분석과 모델링을 전문적으로 수행하고 연구하는 직무를 의미함
  • 특히 머신러닝이나 딥러닝 모델링 기술(Scikit-Learn, Tensorflow, Pytorch등)들을 잘 다룰 줄 아는 역량이 요구됨
    • 세부적으로 학습 모델링을 전문으로 연구 및 개발을 수행하는 머신러닝/딥러닝 엔지니어(ML/DL Engineer)가 데이터사이언티스트 직군에 포함된다 볼 수 있음

그외 데이터 직무들..

  • 이외에도 필요 역량과 도메인 분야에 따라 다양한 명칭으로 직무가 분류되어 있음
    • 역할이 명확하게 구분되는 규모가 큰 기업이 아니고선 대부분의 경우엔 직무의 명칭에 관계 없이 데이터 분야의 모든 작업을 수행해야 하는 경우가 많음
    • 따라서 결론적으로는 데이터 분야에 대한 전반적인 이해와 기초적인 지식을 갖추는 것이 중요함

데이터사이언스 프로젝트의 전반적인 프로세스

  • 과제 발굴 및 문제정의
    • 업무, 과제에 대한 이해
    • 목표 설정 및 계획 수립
  • 데이터 수집 및 전처리 (데이터 공학)
    • 데이터 수집 (웹스크레이핑, 공공데이터 등...)
    • 데이터베이스 구축, 관리 (SQL, AWS, Hadoop 등...)
    • 데이터 전처리 (데이터 구조, 결측/중복/이상값 처리, 정렬 등...)
  • 데이터 분석 (데이터 마이닝)
    • 탐색적 분석 (EDA)
      • 요약(표), 시각화(그래프)
    • 수리적 분석
      • 기초통계분석 (빈도, 평균, 표준편차, 상관관계 등...)
      • 가설검정 (A/B test, T-test, ANOVA 등...)
        • 주로 연역적인 방법으로 가설을 세우고 가설 기각 여부를 결정하는 방식
      • 학습 모델링 (Machine Learning)
        • 주로 귀납적인 방법으로 데이터 학습을 반복한 경험을 바탕으로 목표를 달성하는 방식
        • 학습 모델 분류
          • 지도학습 (종속변수 및 Target이 존재, 예측이 주된 목적)
          • 비지도학습 (독립변수 및 Feature들 간의 관계, 특징 분석이 주된 목적)
          • 준지도학습 (지도학습 + 비지도학습, target이 레이블되지 않은 데이터를 비지도학습으로 레이블링 하면서 지도학습을 진행하는 방식, 레이블 비용이 많이 발생하는 경우에 활용되는 방법)
          • 강화학습 (현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방식)
  • 결과 도출
    • 결과 시각화 분석
    • 결과 해석
    • 모델 예측 및 검증

데이터 분석 5단계

  1. 문제 및 가설 정의
  2. 데이터 수집
  3. 데이터 전처리
  4. 데이터 분석 (혹은 모델링)
  5. 시각화 분석
  • 데이터 분석이 이러한 단계를 반드시 거치는 것은 아니지만, 전반적으로 위 5단계를 통해 데이터 분석이 이루어지게 됨
    • 프로젝트와 업무를 진행함에 있어서 문제를 정의하고 가설 및 목표를 설정하는 것은 매우 중요한 단계이고 가장 어려운 단계라 볼 수 있음
    • 문제 정의와 가설 및 목표가 설정되었다면 이에 알맞은 데이터를 수집하는 것이 중요하며, 다양한 경로를 통해 수집할 수 있음 (웹크롤링, 센서데이터, 공공데이터, Kaggle 데이터 등..)
    • 데이터를 수집했지만 분석 목적에 맞도록 전처리하는 과정도 매우 중요하며, 가장 많은 시간과 비용이 발생하는 단계이고, 전처리가 제대로 되지 않으면 이후 과정의 결과도 제대로 수행될 수 없으므로 상당히 중요한 과정이라 할 수 있음
    • 이후 분석 및 모델링 과정을 실시하고, 결과를 시각화하고 해석을 실시함. 결과의 해석을 통해 인사이트를 도출하여 올바른 의사결정으로 이어질 수 있도록 하는 것이 중요하다 볼 수 있겠음
profile
Machine Learning (AI) Engineer & BackEnd Engineer (Entry)

0개의 댓글

관련 채용 정보