EDA 환경설정

허재정·2024년 2월 22일

EDA

목록 보기
1/13

EDA (Exploratory Data Analysis)

데이터 분석을 위해 데이터를 다양한 각도로 관찰하고 이해하는 과정

  • 데이터의 특징과 내재하는 구조적인 관계를 알아내기 위한 분석기법
  • 이론적 모형을 적용하기보다 데이터를 있는 그대로 보려는데 중점을 두고 데이터 스스로 말하도록 유도하는 분석법
  • 자료의 구조 및 특징 파악을 위하여 자료의 요약과 그래프 기법의 활용

환경설정

MiniConda

  • Conda는 오픈 소스의 패키지 관리 및 환경 관리 시스템으로 패키지 설치, 업데이트, 제거, 패키지 간 종속성 관리, 가상 환경 생성 등을 처리
    conda < Miniconda (python.exe, base modules) < Anaconda
  • Anaconda의 간소화 버전
  • 필요 패키지 선택적 설치
  • 가상환경 생성 관리

Conda 가상환경 생성

  1. Miniconda 설치 후 콘다 버전 확인 및 업데이트
    (base) conda env list
    (base) conda --version
    (base) conda update conda

  2. 가상환경 생성 및 활성화
    (base) conda create -n ds_study python=3.8
    (base) conda activate ds_study
    (ds_study) conda deactivate

Jupyter Notebeook

  • 코드 작성 실행 대화형 환경 제공
  • matplotlib, seabor, bokeh등 시각화 도구와 연동
  1. 설치
    (ds_study) conda install jupyter
    (ds_study) 패키지 설치
    (ds_study) jupyter notebook

Packages

  • 내 가상환경(ds_study)에 필요 패키지 설치
    (ds_study) conda install -y ipython
    (ds_study) conda install -y pandas
    (ds_study) conda install -y matplotlib
    (ds_study) conda install -y seaborn
    (ds_study) conda install -y scikit-learn
    (ds_study) conda install -y xlrd
  1. ipython (Python 인터프리터의 강화된 버전으로, 대화형으로 Python 코드를 작성하고 실행할 수 있도록 해주는 도구)
  2. Pandas (Python에서 데이터 조작과 분석을 위한 라이브러리로, 특히 데이터프레임(DataFrame: 2D 테이블 형태 데이터구조)이라는 자료 구조를 중심으로 설계) 시리즈(1D 데이터 구조 DataFrame의 열과 행)
  3. Matplotlib (파이썬에서 2D 그래픽을 생성하는 데 사용되는 라이브러리로 데이터 시각화에 널리 사용)- 선그래프, 막대그래프, 산점도, 히스토그램, 원그래프
    • matplotlib 한글 설정
window 환경
  1. 먼저 설정할 폰트이름 찾기
    from matplotlib import font_manager
    f_path = 'C:/Windows/Fonts/malgun.ttf'
    font_manager.FontProperties(fname=f_path).get_name()

  2. matplotlib의 font family로 설정하고 실행
    from matplotlib import rc
    rc("font", family='Malgun Gothic')

import matplotlib.pyplot as plt
%matplotlib inline
plt.title("데이터사이언스")

  1. Seaborn (통계 데이터를 시각화하는 데 사용)
  • 히스토그램, 커널 밀도 플롯, 박스 플롯, 회귀 선과 같은 통계적인 시각화. Seaborn은 데이터프레임과 같은 Pandas 데이터 구조와 잘 통합되어 있어 데이터프레임을 바로 시각화 함수로 전달할 수 있어 데이터를 쉽게 시각화
  1. scikit-learn
  • 파이썬에서 사용할 수 있는 머신러닝 라이브러리로 다양한 머신러닝 작업을 수행하는 데 편리하게 사용될 수 있는 도구 (분류, 회귀, 클러스터링, 차원 축소 등 다양한 머신러닝 알고리즘을 제공)
  • 누락된 값의 처리, 스케일링, 범주형 데이터 처리 등 데이터를 전처리하고 준비
  • 모델의 성능을 평가하고 선택하는 데 사용되는 다양한 지표와 도구를 제공
  • 다른 파이썬 라이브러리들과의 상호 운용성을 제공하여 NumPy, Matplotlib 등과 통합하여 사용
  1. Xlrd
  • Excel 파일(.xls)을 읽기 위한 라이브러리
  • xlsx 형식 지원하지 않음.
  1. Openpyxl
  • Excel 파일(.xls, .xlsx)을 읽기 위한 라이브러리
  1. Pandas
  • 엑셀 파일을 손쉽게 읽고 데이터프레임으로 변환하는데에 사용
  • 엑셀 파일 형식(.xls 또는 .xlsx)을 읽어올 때 read_excel 함수를 사용하는데 이 함수가 내부적으로 xlrd나 openpyxl과 같은 엑셀 읽기 라이브러리 사용
profile
Data Science 스터디로그

0개의 댓글