Data Preprocess & EDA

dauuuum·2021년 5월 17일

Big Data

목록 보기

6/7

📝 Data Preprocess & EDA

1. EDA(Exploratory Data Analysis)

탐색적 데이터 분석으로 불리며, 데이터 초기 분석 단계로 데이터를 수집했을 때 이를 다양한 각도에서 관찰하고 이해하는 과정이다.
EDA의 방법은 크게 2가지 (Graphic, Non-Graphic) 으로 나눠질 수 있다.
1) Graphic : 차트 혹은 그림 등을 이용하여 데이터를 확인하는 방법이다.
2) Non-Graphic : 그래픽적인 요소를 사용하지 않는 방법으로 주로 Summary Statistics를 통해 데이터를 확인한다.

2. Data Pre-Processing

1) data cleaning

noise를 제거하거나 inconsistency를 보정하는 과정을 의미한다.
#isnull #dropna

2) data integration

여러개로 나누어져 있는 데이터들을 분석하기 편하게 하나로 합치는 과정을 의미한다.
#merge #concat

3) data transformation

데이터의 형태를 변환하는 작업으로, scaling이라고 부르기도 한다.
#normalize

4) data reduction

데이터를 의미있게 줄이는 것을 의미하며, dimension reduction과 유사한 목적을 갖는다.
#pca

3. Feature Engineering

데이터에 대한 도메인 지식을 활용하여 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만들어 내는 과정이다.

👩🏻‍💻 Reflection

좋은 데이터셋이란?

좋은 데이터셋은 사용자가 이해하기 쉽고, 데이터 분석에 즉시 활용 가능한 데이터라고 생각한다.

먼저 사용자가 이해하기 쉬우려면 raw 데이터에 대한 상세 설명, 유형 등 속성정보를 포함한 필수 메타데이터가 정리되어 있어야 한다.

공공데이터 포털 사이트나 캐글 사이트에 있는 데이터셋이 잘 정리되어 있다고 느껴졌다.

다음으로 데이터 분석에 즉시 활용 가능하려면 데이터 전처리를 통해 중복된 데이터나 비어있는 값이 없고, 단위가 통일되어 있는지 등 점검하여 다루기 쉬운 형태로 변환시켜야 한다.

이를 갖춘다면 데이터로부터 목적에 맞게 필요한 인사이트를 얻을 수 있을 것이다.

dauuuum

이전 포스트

텍스트마이닝2

다음 포스트