환경 : Jupyter Note 사용
파이썬에서 사용하는 데이터 분석용 패키지로 numpy
기반의 라이브러리이다.
자료구조는 1차원 데이터용 Series와 2차원 데이터인 DataFrame을 사용한다.
pip install pandas
pandas를 사용하기 위해서는 pandas를 먼저 설치해야한다.
보통 pandas를 설치하면 numpy도 따라서 설치된다.
pandas 및 numpy를 설치하고 이제 사용하려면 import를 해야한다.
import시 보통 as
구문을 이용해서 pd
, np
라는 이름으로 사용하겠다고 선언한다.
import pandas ad pd
import numpy as np
pandas는 데이터 분석을 하기 위한 라이브러리이므로 데이터가 필요하다.
csv 파일 등을 불러와서 pandas로 데이터를 분석하곤 하는데, 먼저 csv 파일을 불러와보자. csv 파일을 불러오면서 어떠한 변수에 담은 다음, 그 다음 변수를 사용해서 코드를 짜곤 한다.
aaa = pd.read_csv('./CSV/category13.csv')
위 코드는 feedArray라는 변수에 pd.read_csv
라는 코드로 읽은 csv 파일의 데이터를 담을 수 있다.
위에서 aaa
라는 변수에 어떠한 데이터가 담겼을 것이다.
도대체 어떤 데이터가 담겼을까?
.dtypes
담겨진 데이터의 각 열의 데이터 타입을 확인할 수 있다.
aaa.dtypes
sno int64
catnm object
category int64
dtype: object
sno
라는 열에는 int형, catnm
에는 object, category
라는 열에는 int형의 데이터들이 담겨져있다는 의미이다.