Pandas

강림·2023년 9월 24일
0

Data Pre-processing

목록 보기
1/11
post-thumbnail

1. Pandas

1.1 판다스

  • Python Data Analysis Library의 약어
  • 계량 경제학에서 사용되는 용어인 'PANel DAta'의 앞 글자를 따서 지어짐
  • 주요 코드는 Python이나 C로 작성되었으며, 퍼포먼스에 최적화
  • R의 data.frame을 벤치마킹하여 Python에서 사용할 수 있는 형태의 Dataframe을 제공해주는 라이브러리
  • Python을 활용해 데이터 분석을 하기 위해서 사용하는 필수적인 패키지

기본적 특성

  • 통합 인덱싱을 활용한 데이터 조작을 가능하게 하는 데이터프레임(DataFrame) 오브젝트
  • 인메모리(in-memory) 데이터 구조와 다양한 파일 포맷들 간의 데이터 읽기/쓰기 환경 지원
  • 데이터 결측치의 정렬 및 처리
  • 데이터셋의 재구조화 및 피보팅
  • 레이블 기반의 슬라이싱, 잘 지원된 인덱싱, 대용량 데이터셋에 대한 서브셋 지원
  • 데이터 구조의 칼럼 추가 및 삭제
  • 데이터셋의 분할-적용-병합을 통한 GroupBy 엔진 지원
  • 데이터셋 병합(merging) 및 조인(joining) 지원
  • 저차원 데이터에서의 고차원 데이터 처리를 위한 계층적 축 인덱싱 지원
  • date range, 빈도 변환, 이동 창 통계, 이동 창 선형회귀, 날짜 이동 등의 시계열 작업 지원
  • 데이터 필터 지원

필요 패키지 import

import numpy as n
import pandas as pd

1.2 데이터프레임 구조 및 명칭

  • 데이터 프레임은 마치 엑셀 시트처럼 생각할 수 있는 파이썬 라이브러리의 한 부분
  • 각 열은 데이터 종류
  • 각 행은 그 데이터의 한 부분
profile
DRUDGER

0개의 댓글