CHAPTER 1 - 데이터 분석을 시작하며
1-1. 데이터 분석이란
data science and data analysis
데이터과학(data science)
데이터 분석과 머신러닝을 아우르는 개념이다. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는 데 많은 비중을 둔다.
‘데이터과학은 데이터 세계와 비즈니스 세계를 잇는 다리이다.’
데이터분석(data analysis)
데이터를 수집, 처리, 정제, 분석. 모델링하여 의사결정을 내리는 데 도움을 주는 작업이다.
- 기술 통계(descriptive statistics): 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법이다. 예를 들어 평균을 계산하거나 최댓값, 최솟값을 찾는다.
- 탐색적 데이터 분석(EDA): 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법이다.
- 가설검정(hypothesis testing): 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 ‘통계’ 방법이다.
데이터분석가(data analyst)
프로그래밍 기술을 갖추고 있고, 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람
데이터분석가는 프로그래밍, 수학 및 통계, 도메인 지식(비즈니스 문제에 대한 전문 지식)이 모두 필요하다.
- Denger Zone: 수학과 통계 없이 프로그래밍 기술과 도메인 지식만으로 문제 해결 방안을 내놓았다면 검증되지 않은 위험한 해결책이다.
- Machine Learning: 메인 지식 없이 프로그래밍과 수학 및 통계 지식만 사용한다면 비즈니스 목표에 맞지 않는 결과를 만들 수도 있다.
- Traditional Research: 프로그래밍 없이 도메인 지식을 수학 및 통계에 적용한다면 ‘전통적인 분석’ 만 수행하는 것이다.
데이터 분석가의 작업 과정
넓은 의미의 데이터 분석
- 데이터 수집, 데이터 처리, 데이터 정제, 모델링
좁은 의미의 데이터 분석
데이터 분석을 위한 도구
교재에서 사용하는 프로그래밍 언어는 파이썬, 환경은 구글 코랩을 사용한다.
데이터 분석에 사용되는 파이썬 패키지로는 넘파이, 판다스, 맷플롭립, 사이파이, 사이킷런이 있다.
- 넘파이(Numpy): 과학 계산과 배열에 필요한 수학 패키지
- 판다스(pandas): 숫자와 문자를 섞어 표처럼 사용할 수 있는 데이터프레임을 제공
- 맷플롯립(matplotlib): 동적, 정적 그래프를 만들 수 있는 시각화 패키지
- 사이파이(SciPy): 수학과 과학 계산 전문 패키지. 미적분, 선형대수 등을 포함한다.
- 사이킷런(scikit-learn): 파이썬에서 사용할 수 있는 대표적인 머신러닝 패키지