파이썬 pandas모듈/DataFrame/Series/list 정리

허선우·2021년 5월 25일
1

PYTHON

목록 보기
5/17
post-thumbnail

pandas 모듈이란?

Pandas는 쉽고 직관적인 관계형 또는 분류된 데이터로 작업 할 수 있도록 설계된

빠르고 유연하며 표현이 풍부한 데이터 구조를 제공하는 Python 패키지이다.

Python에서 실용적인 실제 데이터 분석을 수행하기 위한 고수준의 객체 형태를 목표로한다.

판다스 데이터 구조

출처: https://1000yun.tistory.com/2 [SW개발 지식 쌓기]

Series(시리즈) 데이터 구조

Series는 딕셔너리, 리스트 ,튜플형태의 데이터를 pandas로 구현하기 위해 만든 것이라고 보면 된다.

Series는 기존의 자료에 인덱스를 부여한다. 그렇기 때문에 시리즈는 index와 values로 존재한다.

위의 코드에서 list를 Pandas의 시리즈 형으로 만들었을때, 빨간색으로 표시된 부분을 index라고 하며 파란색으로 표시된 부분을 values라고 한다.

위의 시리즈에서 index는 range인덱스 (range(0,4))로 형성되고
values는 [1 2 3 4]가 출력된다.

딕셔너리 형 일때의 Series형 구조

딕셔너리 형일 때는 index에 key값이 들어가서 index가 두 형태로 존재한다.
-딕셔너리 형에서의 시리즈 index
암묵적 인덱스 -> range()값 (0,1,2,3)
명시적 인덱스 -> 딕셔너리의 key 값


시리즈의 index는 딕셔너리의 key값으로 존재한다.


시리즈의 values는 딕셔너리의 item값으로 존재한다.


시리즈의 keys와 items는 모두 키 아이템의 형태로 출력된다.

딕셔너리의 형태에서의 인덱스는 key값을 인덱스로 가지는 명시적 인덱스와 rangeindex를 인덱스로 가지는 암묵적 인덱스 두가지로 나뉜다. 인덱스에 따라 두 종류 모두 인덱싱과 슬라이싱은 가능하지만 마스킹은 명시적 인덱스에서만 가능하다.

정리
암묵적 인덱스 -> range()값 (0,1,2,3) -> iloc (인덱싱, 슬라이싱 가능)
명시적 인덱스 -> 딕셔너리의 key 값 -> loc -> (인덱싱, 슬라이싱, 마스킹 가능)

다음 글에선 데이터 프레임에 대해 자세히 다루겠다.

0개의 댓글