1. Pandas 란?
- 데이터 처리, 분석용 라이브러리를 말한다.
- 표 형식의 데이터, 시계열 데이터 등 다양한 형태의 데이터를 다루는데 초점을 둔 모듈
- numpy를 기반 계산으로 사용된다.
- 데이터 분석 전처리(데이터 읽기, 클리닝, 결측값 보완, 정규화 등)를 하는데 있어서 처리가 효율적으로 가능하기 때문에 많이 사용된다.
2. Pandas 특징
- Missing Data 처리가 용이하다.
- 메모리 내의 데이터 구성과 그 외의 포멧의 데이터 간에 상호 읽고 쓰기가 가능한 툴의 모음
- 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조 제공
- 데이터 조작을 위한 빠르고 효율적인 데이터 프레임 객체
- 일반 DB 처럼 데이터를 합치고 관계연산을 수행하는 기능 제공
- 시계열 데이터 : 날짜 범위 생성, 주파수 변환, 이동창을 이용한 통계치나 선형회기, 시프트와 지연 등
- 결손치 처리 가능
- 고속 퍼포먼스을 위한 최적화. 중요한 코드는 Cython이나 C로 구현되어 있음
- 라벨을 기초로하는 슬라이스, fancy 인덱싱, 거대한 데이터 세트의 서브 세트 취득
3. 선언 방법
import pandas as pd