pandas는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어용으로 작성된 소프트웨어 라이브러리 입니다. 특히 숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공합니다.(위키백과)
pandas에 대해 간략히 알아보기 위해 pandas tutorial을 진행해보겠습니다.
먼저 pandas
와 numpy
를 import해줍니다.
pandas는 values list를 통해 시리즈를 만들고, 인덱스를 기본값으로 불러올 수 있습니다.
datetime 인덱스와 레이블이 지정된 열을 사용하여 NumPy 배열을 전달하여 DataFrame 만들기:
랜덤한 숫자를 6,4로 행렬 지정하여 6개의 행에 4개의 컬럼이 들어가게 테이블 만들기
series
와 비슷한 구조로 바뀔 수 있는 객체의 dict로 구성된 datafrarme
을 만듭니다.
이렇게 만들어진 DataFrame
열은 서로 다른 데이터타입(dtypes)으로 구성된 것을 확인할 수 있습니다.
IPython을 사용하는 경우, 열 이름 및 공용 특성에 대한 탭 완성이 자동으로 사용 가능으로 설정됩니다. 완료되는 특성의 하위 집합은 다음과 같습니다.
프레임의 top과 bottom 행
을 보는 방법은 다음과 같습니다.
Index
와 columns
도 확인할 수 있습니다.
df의 경우 모든 데이터가 부동소수점으로 이루어져 있는데 이런 경우 DataFrame.to_numpy 빠르고 데이터를 복사할 필요가 없습니다.
반면 df2처럼, 데이터 타입이 여러개인 경우, DataFrame.to_numpy()는 상대적으로 expensive합니다.