TIL - pandas tutorial(1)

이태연·2022년 1월 10일
0
post-thumbnail

pandas란?

pandas는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어용으로 작성된 소프트웨어 라이브러리 입니다. 특히 숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공합니다.(위키백과)

pandas에 대해 간략히 알아보기 위해 pandas tutorial을 진행해보겠습니다.

먼저 pandasnumpy를 import해줍니다.

Object Creation

pandas는 values list를 통해 시리즈를 만들고, 인덱스를 기본값으로 불러올 수 있습니다.

datetime 인덱스와 레이블이 지정된 열을 사용하여 NumPy 배열을 전달하여 DataFrame 만들기:
랜덤한 숫자를 6,4로 행렬 지정하여 6개의 행에 4개의 컬럼이 들어가게 테이블 만들기

series와 비슷한 구조로 바뀔 수 있는 객체의 dict로 구성된 datafrarme을 만듭니다.

이렇게 만들어진 DataFrame 열은 서로 다른 데이터타입(dtypes)으로 구성된 것을 확인할 수 있습니다.

IPython을 사용하는 경우, 열 이름 및 공용 특성에 대한 탭 완성이 자동으로 사용 가능으로 설정됩니다. 완료되는 특성의 하위 집합은 다음과 같습니다.

Viewing data

프레임의 top과 bottom 행을 보는 방법은 다음과 같습니다.

Indexcolumns 도 확인할 수 있습니다.

df의 경우 모든 데이터가 부동소수점으로 이루어져 있는데 이런 경우 DataFrame.to_numpy 빠르고 데이터를 복사할 필요가 없습니다.

반면 df2처럼, 데이터 타입이 여러개인 경우, DataFrame.to_numpy()는 상대적으로 expensive합니다.

profile
주니어 백엔드 웹 개발자입니다.

0개의 댓글