[Pandas] pandas 이용해보기

Magit·2020년 6월 6일
0

환경 : Jupyter Note 사용

pandas 란?

파이썬에서 사용하는 데이터 분석용 패키지로 numpy 기반의 라이브러리이다.
자료구조는 1차원 데이터용 Series와 2차원 데이터인 DataFrame을 사용한다.

pandas 설치하기

pip install pandas

pandas를 사용하기 위해서는 pandas를 먼저 설치해야한다.
보통 pandas를 설치하면 numpy도 따라서 설치된다.

import해서 사용할 준비 하기

pandas 및 numpy를 설치하고 이제 사용하려면 import를 해야한다.
import시 보통 as 구문을 이용해서 pd, np 라는 이름으로 사용하겠다고 선언한다.

import pandas ad pd
import numpy as np

csv 파일 불러오기

pandas는 데이터 분석을 하기 위한 라이브러리이므로 데이터가 필요하다.
csv 파일 등을 불러와서 pandas로 데이터를 분석하곤 하는데, 먼저 csv 파일을 불러와보자. csv 파일을 불러오면서 어떠한 변수에 담은 다음, 그 다음 변수를 사용해서 코드를 짜곤 한다.

aaa = pd.read_csv('./CSV/category13.csv')

위 코드는 feedArray라는 변수에 pd.read_csv 라는 코드로 읽은 csv 파일의 데이터를 담을 수 있다.

받아온 데이터 타입 확인 및 변경하기

위에서 aaa 라는 변수에 어떠한 데이터가 담겼을 것이다.
도대체 어떤 데이터가 담겼을까?

.dtypes 로 각 열의 데이터 타입 확인하기

.dtypes 담겨진 데이터의 각 열의 데이터 타입을 확인할 수 있다.

aaa.dtypes

sno          int64
catnm       object
category     int64
dtype: object

sno 라는 열에는 int형, catnm 에는 object, category 라는 열에는 int형의 데이터들이 담겨져있다는 의미이다.

profile
이제 막 배우기 시작한 개발자입니다.

0개의 댓글