[데이터 취업 스쿨 스터디 노트] 6. EDA 오리엔테이션

WHIT·2024년 5월 14일
0

Data Scientist

목록 보기
8/18

< 수강분량 : EDA 오티 1~2 >

✅ EDA란?

  • EDA(Exploratory Data Analysis, 탐색적 데이터 분석)이란?

탐색적 데이터 분석은 데이터 세트를 분석, 조사하고 데이터 세트의 주요 특성을 요약하는 분석 기법이다. EDA의 가장 큰 장점은 분석을 수행한 후 데이터의 시각화를 제공한다는 것이다. (출처 : 위키피디아)

  • EDA가 필요한 이유? (EDA의 목적)
    유의미한 데이터 분석을 위해서는 데이터에 대한 이해가 필수적이다. 탐색적 데이터 분석을 통해 더 나은 가설을 수립하고, 적합한 툴, 스킬, 모델을 선택할 수 있다.

✅ EDA 시작하기

1) 가상환경 생성과 활성화

# env(가상환경) 생성
conda create -n ds_study python=3.8
# Proceed ([y] / n) ? y 입력 후 엔터

# env 활성화
conda activate ds_study
# 혹은
source activate ds_study

# env 비활성화
conda deactivate

# env 목록
conda env list

# env 삭제 (name: 가상환경 이름 예:ds_study)
conda env remove -n name

2) 주피터 노트북 설치와 실행

# jupyterNotebook 설치
conda install jupyter

# 패키지(Package) 설치
conda install ipython
conda install matplotlib
conda install seaborn
conda install pandasc
conda install sklearn
conda install xlrd

# (ds_study 안에서) jupyter notebook 실행
jupyter notebook

3) 시각화를 위한 한글 폰트 설정


# 내 컴퓨터에서 한글이 지원되는 폰트 확인하기(for mac)
from matplotlib import font_manager

f_path = '/Library/Fonts/Arial Unicode.ttf'
font_manager.FontProperties(fname=f_path).get_name()


# 내 컴퓨터에서 한글이 지원되는 폰트 확인하기(for window)
from matplotlib import font_manager

f_path = 'C:\Windows\Fonts\malgun.ttf'
font_manager.FontProperties(fname=f_path).get_name()

# 폰트 이름을 알아낸 후, 설정(for mac)
from matplotlib import rc

rc('font', family='Arial Unicode MS')


# 폰트 이름을 알아낸 후, 설정(for mac)
from matplotlib import rc

rc('font', family='Malgun Gothic')

# 추후 강의에서는 아래 코드를 먼저 실행
import matplotlib.pyplot as plt
%matplotlib inline
from matplotlib import rc
rc('font', family='Arial Unicode MS') #혹은 rc('font', family='Malgun Gothic')

# 확인
plt.title("데이터사이언스");

"이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다."

0개의 댓글