EDA (Exploratory Data Analysis)
데이터 분석을 위해 데이터를 다양한 각도로 관찰하고 이해하는 과정
- 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법
- 이론적 모형을 적용하기보다 데이터를 있는 그대로 보려는데 중점을 두고 데이터 스스로 말하도록 유도하는 분석법
- 자료의 구조 및 특징 파악을 위하여 자료의 요약과 그래프 기법의 활용
환경설정
MiniConda
- Conda는 오픈 소스의 패키지 관리 및 환경 관리 시스템으로 패키지 설치, 업데이트, 제거, 패키지 간 종속성 관리, 가상 환경 생성 등을 처리
conda < Miniconda (python.exe, base modules) < Anaconda
- Anaconda의 간소화 버전
- 필요 패키지 선택적 설치
- 가상환경 생성 관리
Conda 가상환경 생성
-
Miniconda 설치 후 콘다 버전 확인 및 업데이트
(base) conda env list
(base) conda --version
(base) conda update conda
-
가상환경 생성 및 활성화
(base) conda create -n ds_study python=3.8
(base) conda activate ds_study
(ds_study) conda deactivate
Jupyter Notebeook
- 코드 작성 실행 대화형 환경 제공
- matplotlib, seabor, bokeh등 시각화 도구와 연동
- 설치
(ds_study) conda install jupyter
(ds_study) 패키지 설치
(ds_study) jupyter notebook
Packages
- 내 가상환경(ds_study)에 필요 패키지 설치
(ds_study) conda install -y ipython
(ds_study) conda install -y pandas
(ds_study) conda install -y matplotlib
(ds_study) conda install -y seaborn
(ds_study) conda install -y scikit-learn
(ds_study) conda install -y xlrd
- ipython (Python 인터프리터의 강화된 버전으로, 대화형으로 Python 코드를 작성하고 실행할 수 있도록 해주는 도구)
- Pandas (Python에서 데이터 조작과 분석을 위한 라이브러리로, 특히 데이터프레임(DataFrame: 2D 테이블 형태 데이터구조)이라는 자료 구조를 중심으로 설계) 시리즈(1D 데이터 구조 DataFrame의 열과 행)
- Matplotlib (파이썬에서 2D 그래픽을 생성하는 데 사용되는 라이브러리로 데이터 시각화에 널리 사용)- 선그래프, 막대그래프, 산점도, 히스토그램, 원그래프
window 환경
-
먼저 설정할 폰트이름 찾기
from matplotlib import font_manager
f_path = 'C:/Windows/Fonts/malgun.ttf'
font_manager.FontProperties(fname=f_path).get_name()
-
matplotlib의 font family로 설정하고 실행
from matplotlib import rc
rc("font", family='Malgun Gothic')
import matplotlib.pyplot as plt
%matplotlib inline
plt.title("데이터사이언스")
- Seaborn (통계 데이터를 시각화하는 데 사용)
- 히스토그램, 커널 밀도 플롯, 박스 플롯, 회귀 선과 같은 통계적인 시각화. Seaborn은 데이터프레임과 같은 Pandas 데이터 구조와 잘 통합되어 있어 데이터프레임을 바로 시각화 함수로 전달할 수 있어 데이터를 쉽게 시각화
- scikit-learn
- 파이썬에서 사용할 수 있는 머신러닝 라이브러리로 다양한 머신러닝 작업을 수행하는 데 편리하게 사용될 수 있는 도구 (분류, 회귀, 클러스터링, 차원 축소 등 다양한 머신러닝 알고리즘을 제공)
- 누락된 값의 처리, 스케일링, 범주형 데이터 처리 등 데이터를 전처리하고 준비
- 모델의 성능을 평가하고 선택하는 데 사용되는 다양한 지표와 도구를 제공
- 다른 파이썬 라이브러리들과의 상호 운용성을 제공하여 NumPy, Matplotlib 등과 통합하여 사용
- Xlrd
- Excel 파일(.xls)을 읽기 위한 라이브러리
- xlsx 형식 지원하지 않음.
- Openpyxl
- Excel 파일(.xls, .xlsx)을 읽기 위한 라이브러리
- Pandas
- 엑셀 파일을 손쉽게 읽고 데이터프레임으로 변환하는데에 사용
- 엑셀 파일 형식(.xls 또는 .xlsx)을 읽어올 때 read_excel 함수를 사용하는데 이 함수가 내부적으로 xlrd나 openpyxl과 같은 엑셀 읽기 라이브러리 사용