[Chapter 01] 데이터 분석을 시작하며 - 1 데이터 분석이란

Kim Seohyun·2023년 1월 4일
0
post-thumbnail

데이터 분석, 데이터 과학, 파이썬
데이터 분석이 무엇인지 알아봅니다. 데이터 분석의 정의와 데이터 분석에 관련된 기술에 대해 개략적인 개념을 이해하면 이후 장을 공부할 때 이해하기 훨씬 쉽습니다.

데이터 분석과 데이터 과학

데이터 분석과 데이터 과학이 가장 크게 다른 점은 두 분야가 만들어 내는 '결과물'이다. 외에도 두 분야를 간략하게 비교하면 아래와 같다.

데이터 분석(Data Analysis)데이터 과학(Data Science)
범주비교적 소규모대규모
목표의사 결정을 돕기 위한 통찰을 제공하는 일문제 해결을 위해 최선의 솔루션을 만드는 일
주요 기술컴퓨터 과학, 통계학, 시각화 등컴퓨터 과학, 통계학, 머신러닝, 인공지능 등
빅데이터사용사용

더 알아보기

데이터 분석가

데이터 분석가(Data Analyst)는 프로그래밍 기술을 갖추고 있고 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람이다.
아래 그림은 Drew Conway가 가린 '데이터 과학 벤 다이어그램'이다. 데이터 과학자/분석가에게 필요한 기술을 잘 나타내고 있다.

사진 출처
데이터 분석가는 프로그래밍, 수학/통계, 도메인 지식이 모두 필요하다. 수학/통계가 없다면 검증되지 않은 해결책이므로, 도메인 지식이 없다면 비즈니스 목표에 맞지 않는 결과를 만들 수 있으므로, 프로그래밍이 없다면 전통적인 분석만 수행하므로 종합적인 지식이 필요한 것이다.
그렇다면 데이터 분석가의 작업 과정은 무엇을 의미할까? 좁은 의미에서는 기술통계, 탐색적 데이터 분석, 가설검정을 포함한다. 넓은 의미에서는 데이터 수집, 데이터 처리, 데이터 정제, 모델링까지를 포함한다.

데이터 분석을 위한 도구

데이터 분석을 도와주는 도구란 어떤 종류의 소프트웨어를 말한다. 소프트웨어를 자유롭게 다루기 위해서는 하나 이상의 프로그래밍 언어를 사용할 수 있어야 한다.

프로그래밍 언어

데이터 분석에 많이 사용하는 프로그래밍 언어는 파이썬(Python)과 R이다. 데이터가 데이터베이스 형태로 있다면 프로그래밍 언어는 아닌, 데이터를 다루기 위해 고안된 언어인 SQL(Structed Query Language)을 사용할 수 있다.
R은 통계 관련 패키지가 파이썬 보다 많지만 파이썬이 데이터 처리에 사용할 패키지가 보다 뛰어나서 데이터 분석에는 표준 언어처럼 사용된다. 본 책에서도 파이썬으로 학습이 진행된다.

프로그래밍 환경

파이썬은 공식 사이트에서 다운로드하여 설치할 수 있지만, 개인의 환경은 다양하기 때문에 본 책에서는 파이썬 설치가 과정이 필요 없는 구글 코랩(Google Colab) 환경에서 프로그래밍을 진행한다.

파이썬 필수 패키지

패키지(Package)는 파이썬에서 유용한 기능이 구현된 파일을 묶어서 유통시키는 단위이다. 다른 언어에서는 라이브러리(Library)라고도 부르며 종종 두 용어를 혼용해서 사용한다. 파이썬 패키지는 PyPI에서 찾을 수 있다.
데이터 분석에 대표적으로 사용하는 파이썬 패키지는 다음과 같다.

좀 더 알아보기

데이터 마이닝과 머신러닝

데이터 마이닝(Data Mining)은 데이터에서 패턴 혹은 지식을 추출하는 작업을 말한다. 머신러닝, 통계학, 데이터베이스 시스템과 관련이 많다. 이러한 패턴과 지식은 사람이 의사 결정을 내리기 위해 활용된다.
머신러닝(Machine Learning)은 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술이다. 머신러닝으로 학습한 소프트웨어 객체를 모델(Model)이라고 부른다.
데이터 마이닝과 머신러닝을 공유하는 영역이 많고, 데이터 분석과 데이터 과학만큼이나 명확하게 구분하기 어렵다. 하지만 차이점은 분명이 존재한다. 머신러닝 데이터 마이닝과 다르게 규칙이나 패턴을 사용하는 주체가 사람이 아닌 컴퓨터이다. 또한 데이터 마이닝 알고리즘은 비교적 규칙을 만드는 과정이 투명한 데 비해 머신러닝 알고리즘은 결정이 내려진 이유를 알기가 어려운 경우가 많다.
좋은 데이터가 준비되어 있다면 머신러닝 모델을 만드는 과정은 비교적 쉽지만 데이터가 엉망이라면 알고리즘이 좋아도 제대로 동작하는 모델을 만들 수 없다.

정리

3가지 키워드로 정리하는 핵심 포인트

  • 데이터 분석: 데이터를 수집, 처리, 정제, 분석, 모델링하여 의사 결정을 내리는 데 도움을 주는 작업입니다. 통계학과 머신러닝의 기술을 사용하고 비즈니스 문제를 해결하기 위해 도메인 지식이 필요합니다.
  • 데이터 과학: 데이터 분석, 머신러닝을 아우르는 개념입니다. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는 데 많은 비중을 둡니다.
  • 파이썬: 데이터 분석, 데이터 과학, 머신러닝 작업에 사용할 수 있는 인기 있는 프로그래밍 언어입니다. 넘파이, 판다스, 맷플롯립 등 데이터 분석에 필요한 다양한 패키지를 손쉽게 사용할 수 있습니다.

학습에 꼭 필요한 핵심 패키지

  • 넘파이
  • 판다스
  • 맷플롯립
  • 사이파이
  • 사이킷런
profile
EWHA Cyber Security 19

0개의 댓글