K.J.Ch.velog
로그인
K.J.Ch.velog
로그인
Data Science & Data Analysis 개요
Kyung Jae, Cheong
·
2023년 3월 20일
팔로우
0
데이터사이언스
0
Python 개념 정리 시리즈
목록 보기
1/8
데이터 사이언스란?
빅데이터를 지식으로 만드는 과정
데이터의 추출, 통합, 보간, 해석, 추론, 의사결정 등 데이터 처리의 모든 부분을 포함하는 개념
데이터사이언스의 3가지 구성요소
컴퓨터공학(Computer Science)
수학/통계학(Math/Statistics)
실무경험/지식(Domain Knowledge)
즉, 데이터사이언스는 '도메인 빅데이터'에 '통계' 와 'IT 기술'을 접목시킨 학문
데이터사이언스의 세부 분야
데이터사이언스 ⊃ 인공지능(AI) ⊃ 머신러닝 ⊃ 딥러닝
데이터사이언스는 데이터 수집, 분석, 배포에 이르기 까지 데이터 분야의 거의 모든 개념을 포함하는 학문임
인공지능(AI)은 컴퓨터에서 음성 및 작성된 언어를 보고 이해하고 번역하고 데이터를 분석하고 추천하는 기능을 포함하여 다양한 고급 기능을 수행할 수 있는 일련의 기술로써 데이터사이언스에 포함되는 세부 분야 중 하나라 볼 수 있음
머신러닝은 인공지능의 하위개념이며, 딥러닝은 머신러닝 기법들 중 인공신경망을 통해 구현된 특정한 기술을 의미함
데이터 분야의 직무
데이터를 전문적으로 다루는 직무는 크게 다음과 같이 분류해 볼 수 있음
데이터 엔지니어(Data Engineer)
데이터의 수집 및 데이터베이스 구축, 학습 모델의 배포 등의 데이터 공학 분야의 작업을 전문적으로 수행하는 직무
데이터베이스 관련 기술(RDBMS, NoSQL), 분산처리기술(Hadoop, Spark), 서비스 배포 관련 기술(Flask, Django) 등의 역량이 요구됨
백엔드 개발자의 업무와 겹치는 경우가 많지만, 주된 차이점은 데이터분석가나 데이터사이언티스트가 필요로하는 데이터를 생산하고 저장하고 제공하는 역할에 특화되어 있어서 머신러닝이나 딥러닝과 같은 데이터사이언스 지식도 어느정도는 필요한 직군이라는 점
데이터 분석가(Data analysis)
데이터 시각화 분석과 비즈니스 인사이트 도출을 전문적으로 수행하는 직무
프로덕트 분석가, 비즈니스 분석가 등 다양한 이름으로 불리기도 함
데이터 추출 및 수집(SQL, NoSQL), 데이터분석(Python, R), 시각화(Plotly, Looker, Tableau) 등의 역량이 요구됨
무엇보다 시각화 능력이 가장 중요한 역량이라 볼 수 있는 직군이며, 인사이트 도출을 위한 풍부한 도메인 지식도 함께 요구되는 직군이라 볼 수 있음
데이터 사이언티스트(Data Scientist)
어떠한 의미에서는 데이터 수집, 분석, 모델링, 배포 등 모든 단계를 수행하는 직군으로 정의할 수도 있지만, 일반적으로 데이터사이언티스트는 데이터 분석과 모델링을 전문적으로 수행하고 연구하는 직무를 의미함
특히 머신러닝이나 딥러닝 모델링 기술(Scikit-Learn, Tensorflow, Pytorch등)들을 잘 다룰 줄 아는 역량이 요구됨
세부적으로 학습 모델링을 전문으로 연구 및 개발을 수행하는 머신러닝/딥러닝 엔지니어(ML/DL Engineer)가 데이터사이언티스트 직군에 포함된다 볼 수 있음
그외 데이터 직무들..
이외에도 필요 역량과 도메인 분야에 따라 다양한 명칭으로 직무가 분류되어 있음
역할이 명확하게 구분되는 규모가 큰 기업이 아니고선 대부분의 경우엔 직무의 명칭에 관계 없이 데이터 분야의 모든 작업을 수행해야 하는 경우가 많음
따라서 결론적으로는 데이터 분야에 대한 전반적인 이해와 기초적인 지식을 갖추는 것이 중요함
데이터사이언스 프로젝트의 전반적인 프로세스
과제 발굴 및 문제정의
업무, 과제에 대한 이해
목표 설정 및 계획 수립
데이터 수집 및 전처리 (데이터 공학)
데이터 수집 (웹스크레이핑, 공공데이터 등...)
데이터베이스 구축, 관리 (SQL, AWS, Hadoop 등...)
데이터 전처리 (데이터 구조, 결측/중복/이상값 처리, 정렬 등...)
데이터 분석 (데이터 마이닝)
탐색적 분석 (EDA)
요약(표), 시각화(그래프)
수리적 분석
기초통계분석 (빈도, 평균, 표준편차, 상관관계 등...)
가설검정 (A/B test, T-test, ANOVA 등...)
주로 연역적인 방법으로 가설을 세우고 가설 기각 여부를 결정하는 방식
학습 모델링 (Machine Learning)
주로 귀납적인 방법으로 데이터 학습을 반복한 경험을 바탕으로 목표를 달성하는 방식
학습 모델 분류
지도학습 (종속변수 및 Target이 존재, 예측이 주된 목적)
비지도학습 (독립변수 및 Feature들 간의 관계, 특징 분석이 주된 목적)
준지도학습 (지도학습 + 비지도학습, target이 레이블되지 않은 데이터를 비지도학습으로 레이블링 하면서 지도학습을 진행하는 방식, 레이블 비용이 많이 발생하는 경우에 활용되는 방법)
강화학습 (현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방식)
결과 도출
결과 시각화 분석
결과 해석
모델 예측 및 검증
데이터 분석 5단계
문제 및 가설 정의
데이터 수집
데이터 전처리
데이터 분석 (혹은 모델링)
시각화 분석
데이터 분석이 이러한 단계를 반드시 거치는 것은 아니지만, 전반적으로 위 5단계를 통해 데이터 분석이 이루어지게 됨
프로젝트와 업무를 진행함에 있어서 문제를 정의하고 가설 및 목표를 설정하는 것은 매우 중요한 단계이고 가장 어려운 단계라 볼 수 있음
문제 정의와 가설 및 목표가 설정되었다면 이에 알맞은 데이터를 수집하는 것이 중요하며, 다양한 경로를 통해 수집할 수 있음 (웹크롤링, 센서데이터, 공공데이터, Kaggle 데이터 등..)
데이터를 수집했지만 분석 목적에 맞도록 전처리하는 과정도 매우 중요하며, 가장 많은 시간과 비용이 발생하는 단계이고, 전처리가 제대로 되지 않으면 이후 과정의 결과도 제대로 수행될 수 없으므로 상당히 중요한 과정이라 할 수 있음
이후 분석 및 모델링 과정을 실시하고, 결과를 시각화하고 해석을 실시함. 결과의 해석을 통해 인사이트를 도출하여 올바른 의사결정으로 이어질 수 있도록 하는 것이 중요하다 볼 수 있겠음
Kyung Jae, Cheong
Machine Learning (AI) Engineer & BackEnd Engineer (Entry)
팔로우
다음 포스트
Python 기초 - 파이썬 소개, 모듈, IDE
0개의 댓글
댓글 작성
관련 채용 정보