데이터 셋 불러오기
df = read_csv('url','각종 파라미터') df = read_excel('url', 각종 파라미터')
각종 파라미터 :
- delimiter : 값과 값사이를 구분해주는 기호 설정 (csv는 ','가 default)
ex) delimiter = ','- index : 인덱스를 사용할 것인지(기존데이터에 index가 있다면 꺼주는 식)
ex) index = False- header : 데이터의 헤더를 설정해주는 것. csv는 기본적으로 첫행을 header로 지정해서 불러옴 (defualt = 'infer')
ex) header = None- names : 열 이름을 리스트로 입력해 줄 수 있음.
ex) names = ['a', 'b', 'c']- usecols : 데이터의 사용할 column을 선택해서 불러오고 싶을 때.
ex) usecols = ['a', 'b'] or [0,1,2] or [0:-1] ...
각종 유용한 method
df.shape
: 데이터프레임의 크기(차원)을 볼 수 있다.df.dtypes
: 데이터프레임의 각 열의 데이터 타입을 볼 수 있다df.head()
: 데이터프레임의 윗부분을 대략 볼 수 있다.(5개 정도)fillna()
: 데이터프레임의 nan값을 괄호값으로 채운다.dropna()
: nan 데이터 행 제거그 밖의 배운 것
import pandas as pd
: pandas 라이브러리 import// pd로 사용
import matplotlib.pyplot as plt
: 그래프, 시각화 라이브러리
import seaborn as sns
: plt 의 업그레이드 버젼. 시각화 라이브러리