[Pandas] 기본 설명과 특징

원준·2023년 5월 22일

데이터 분석 - Python

목록 보기
6/12

1. Pandas 란?

  • 데이터 처리, 분석용 라이브러리를 말한다.
  • 표 형식의 데이터, 시계열 데이터 등 다양한 형태의 데이터를 다루는데 초점을 둔 모듈
  • numpy를 기반 계산으로 사용된다.
  • 데이터 분석 전처리(데이터 읽기, 클리닝, 결측값 보완, 정규화 등)를 하는데 있어서 처리가 효율적으로 가능하기 때문에 많이 사용된다.

2. Pandas 특징

  • Missing Data 처리가 용이하다.
  • 메모리 내의 데이터 구성과 그 외의 포멧의 데이터 간에 상호 읽고 쓰기가 가능한 툴의 모음
  • 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조 제공
  • 데이터 조작을 위한 빠르고 효율적인 데이터 프레임 객체
  • 일반 DB 처럼 데이터를 합치고 관계연산을 수행하는 기능 제공
  • 시계열 데이터 : 날짜 범위 생성, 주파수 변환, 이동창을 이용한 통계치나 선형회기, 시프트와 지연 등
  • 결손치 처리 가능
  • 고속 퍼포먼스을 위한 최적화. 중요한 코드는 Cython이나 C로 구현되어 있음
  • 라벨을 기초로하는 슬라이스, fancy 인덱싱, 거대한 데이터 세트의 서브 세트 취득

3. 선언 방법

import pandas as pd

# pd로 사용을 많이 한다.
profile
공부해보자

0개의 댓글