특정한 작업을 위해 데이터를 관련성 있게 모아놓은 것을 데이터셋(Dataset)이라고 하며 여러 형식으로 된 자료를 포함할 수 있다.
데이터 파일 또는 데이터베이스라고도 부르며 컴퓨터가 처리, 분석할 수 있는 정보의 세트를 말한다.
데이터셋이란 단어를 처음 딱 들었을때는 대체 이게 뭐지? 싶었는데 구글링으로 찾아보니 "데이터베이스"라고도 부른다는걸 보고 그제서야 조금 이해가 갔다.
Dataset 개념 출처
데이터셋을 불러오기 전에는 일단 데이터셋에 대한 정보를 파악해야한다. 행과 열의 수, 열에 헤더가 있는지, 결측값(NaN, NULL 값 등..)이 있는지를 확인하고 또한 데이터셋 원본의 형태를 확인해야한다.
데이터셋을 불러오기 전에 미리 데이터셋에 대한 정보를 파악하는 이유는 데이터를 다루기 전에 오류를 깨끗하게 다듬지 않으면 잘못된 데이터를 통해서 잘못된 결론을 얻을 수 있기 때문이다.
import pandas as pd
pd.read_csv() #pandas를 사용해 데이터셋을 불러오는 코드
pd.read_excel()
위의 코드로 데이터셋을 불러올 수 있으며, 오늘 내가 사용한 방법은 read_excel()을 사용해서 데이터셋을 불러왔다.
df = pd.read_excel(io='엑셀 파일', sheet_name='시트 이름 혹은 0(기본)'
read_excel의 매개변수는 굉장히 많은데, 그 중 오늘 내가 사용한건 딱 두가지였다. io와 sheet_name이다.
io는 엑셀 파일의 경로를 입력하면 되고, sheet_name은 엑셀 시트의 이름을 입력하면 된다. sheet_name의 기본값은 0으로 str, int, list 또는 None이 들어갈 수 있다.
아래의 링크로 들어가면 read_excel에 대한 정확한 정보를 확인할 수 있다.
pandas.read_excel()
EDA(Exploratory Data Analysis) 말 그대로는 탐색적 데이터 분석으로 해석된다. 데이터 분석에 있어서 매우 중요한 초기 분석의 단계를 의미한다.
시각화 같은 도구를 통해 패턴을 발견하거나, 데이터의 특이성을 확인하거나, 통계와 그래픽을 통해 가설을 검정하는 과정을 포함한다.
EDA의 타겟은 Univariate와 Multi-variate로 나눠지며 Multi-variate의 경우 여러 변수들간의 관계를 보는 것이 주목적이다.
EDA의 방법은 크게 두가지(Graphic, Non-Graphic)으로 나눠진다.
Histogram 혹은 Pie chart, Stem-leaf plot, Boxplot, QQplot 등을 사용한다. 만약 값들이 너무 다양하면 Binning, Tabulation 등을 활용할 수도 있다.
나에게는 Histogram이 매우 생소했는데 히스토그램은 위키백과의 설명을 참고하면
"Histogram은 표로 되어있는 도수 분포를 정보 그림으로 나타낸 것이다. 더 간단하게 말하면, 도수분포표를 그래프로 나타낸 것이다."
라고 설명되어 있다. 역시 글로 보면 알쏭달쏭하지만 그래프를 보면 아 이게 히스토그램이라고? 하는 생각이 든다.
히스토그램을 보고 처음에는 막대 그래프랑 같다고 생각했는데 찾아보니 둘이 틀렸다. 그래서 그냥 차이점을 외웠다. 막대 그래프는 서로 떨어져있지만 히스토그램은 위의 사진처럼 막대끼리 붙어있다. 이 차이점만 알면 대충 봐도 막대 그래프인지, 히스토그램인지 구분이 갈 것이다.
샘플 데이터의 Distribution을 확인하는 것이 주목적이다. 정확한 값이 필요할 때 Non-Graphic 방법을 통해서 확인한다.