공부하면서 정리하는 블로그

공부하면서 정리하는 블로그

[Pandas] 기본 설명과 특징

원준·2023년 5월 22일

데이터 분석 - Python

목록 보기

6/12

1. Pandas 란?

데이터 처리, 분석용 라이브러리를 말한다.
표 형식의 데이터, 시계열 데이터 등 다양한 형태의 데이터를 다루는데 초점을 둔 모듈
numpy를 기반 계산으로 사용된다.
데이터 분석 전처리(데이터 읽기, 클리닝, 결측값 보완, 정규화 등)를 하는데 있어서 처리가 효율적으로 가능하기 때문에 많이 사용된다.

2. Pandas 특징

Missing Data 처리가 용이하다.
메모리 내의 데이터 구성과 그 외의 포멧의 데이터 간에 상호 읽고 쓰기가 가능한 툴의 모음
축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조 제공
데이터 조작을 위한 빠르고 효율적인 데이터 프레임 객체
일반 DB 처럼 데이터를 합치고 관계연산을 수행하는 기능 제공
시계열 데이터 : 날짜 범위 생성, 주파수 변환, 이동창을 이용한 통계치나 선형회기, 시프트와 지연 등
결손치 처리 가능
고속 퍼포먼스을 위한 최적화. 중요한 코드는 Cython이나 C로 구현되어 있음
라벨을 기초로하는 슬라이스, fancy 인덱싱, 거대한 데이터 세트의 서브 세트 취득

3. 선언 방법

import pandas as pd

# pd로 사용을 많이 한다.

공부해보자

이전 포스트

[Numpy] 선형대수 패키지 (n차 행렬)

다음 포스트

[Pandas] Series 기본 사용 및 기능

0개의 댓글