EDA


Data Preprocess & EDA


1. 데이터셋 불러오기

1.1 Description을 통해 데이터셋 정보 파악

  • 원본의 형태를 확인하기!!
  • 행과 열의 수
  • 열에 헤더가 있는지(ex.데이터 이름 등)
  • Missing Data(결측치)

Q . 데이터셋 정보 파악을 불러오기 전에 해야하는 이유는 무엇일까요?

1.2 데이터 불러오기(CSV 파일 등)

CSV 파일 불러오기 : pandas.read_csv()

import pandas as pd

df = pd.read_csv(ktng_data_url)

df.head() 

df vs df.head() 차이점?

  • df.head()는 default 상위 5개 항목만 출력
  • df는 모두 출력

Q . 쉼표가 있는데 csv로 정상적으로 읽힌 이유는 무엇일까요?

Q . 문제가 생긴 경우, 왜 그런지에 대해서 확인해야 합니다.

colab에서 함수 메뉴얼 보는 방법 : help(pd.read_csv)

Q . print(df.head) 와 df.head는 어떤 차이가 있을까요?

Q . 좋은 데이터셋의 의미는 뭘까요?


2. EDA

  • EDA(Exploratory Data Analysis) : 탐색적 자료 분석

2.1 Uni-Non Graphic

2.2 Uni-Graphic

  • QQPlot

2.3 Multi-Non Graphic

2.4 Multi-Graphic

  • Line Plot

Q . 위 그림이 의미하는 바는 무엇일까요? 어떻게 더 개선 할 수 있을까요?

Q . <matplotlib.~~> 부분을 어떻게 지울 수 있을까요?
A : 세미콜론(;)

  • Histogram

  • Scatter Plot

Q . 에러의 원인과 이를 위해서 어떻게 해야할까요?

  • Bar Plot
  • Horizontal Bar Plot

Q . 이 kt&g 데이터에 EDA를 하는 것으로 얻은 결론은 무엇이 있을까요?


3. Data Preprocessing

  • Cleaning
  • Missing Values
  • Noisy data
  • Etc
  • Integration
  • Transformation
  • Reduction


👉 과정 한눈에 보기

profile
I believe I can fly

0개의 댓글