Pandas 기초 DataFrame의 속성과 기능

dpwl·2024년 6월 20일

Data Analysis pandas python zerobase 데이터 분석 제로베이스 파이썬 판다스

Data Analysis with Python

목록 보기

7/48

1. DataFrame의 속성

1.1 index

index는 데이터프레임의 인덱스(행의 라벨)를 조회한다.

DataFrame.index

1.2 columns

columns는 데이터프레임의 컬럼(열의 라벨)을 조회한다.

DataFrame.columns

1.3 values

values는 데이터프레임의 값들을 2차원 Numpy 배열로 반환한다.

DataFrame.values

반환값(Returns): numpy.ndarray

1.4 dtypes

dtypes는 각 열의 데이터 타입을 시리즈로 반환한다.

DataFrame.dtypes

반환값(Returns): pandas.Series

1.5 shape

shape 속성은 데이터프레임의 형태를 튜플로 변환한다.

shape 튜블 형태: (행의 수, 열의 수)

DataFrame.shape

1.6 size

size 속성은 데이터프레임에 있는 총 원소의 개수를 숫자로 반환한다. (= 행의 개수 x 열의 개수)

DataFrame.size

1.7 T

T 속성은 데이터프레임의 전치(transpose)를 반환한다. (행과 열을 바꾼 데이터프레임)

DataFrame.T

반환값(Returns): DataFrame

예시:

df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
df
col1 col2
0 1 3
1 2 4

df.T
0 1
col1 1 2
col2 3 4

2. DataFrame의 기능

2.1 head(n) & tail(n)

데이터프레임의 첫(head) 또는 마지막(tail) n개의 항목을 반환한다.

DataFrame.head(n=5)
DataFrame.tail(n=5)

2.2 describe()

describe()는 데이터프레임의 기초 통계 정보를 요약하여 시리즈나 데이터프레임을 반환 (평균, 표준편차, 최솟값, 최댓값, 중간값 등)

데이터 타입이 object, number인 시리즈가 있는 경우, 타입이 number 열(column)의 통계만 기본 반환
include 파라미터 조정하여 전체 통계도 접근 가능

DataFrame.describe(percentiles=None, include=None, exclue=None)

매개변수(Parameters):

include: 'all, list-like of dtypes or None (default), optional

2.3 info()

info()는 데이터프레임의 요약 정보를 출력 (각 열의 데이터 타입, 누락된 값의 개수 등)

DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)

2.4 isna(), isnull()

데이터프레임의 각 요소가 누락된 값(NA 또는 NaN)인지 여부를 나타내는 불리언 데이터프레임을 반환한다.

DataFrame.isna()
DataFrame.isnull()

2.5 fillna()

fillna() 함수는 누락된 값에 대해 다른 값으로 대체한다.

DataFrame.fillna(value=None, *, method=None, axis=None, inplace=False, limit=None, downcast=None)

매개변수(Parameters):

value: scalar, dict, Series, or DataFrame
axis: {0 or 'index', 1 or 'columns'}

2.6 dropna()

dropna() 함수는 누락된 값(NaN)이 있는 행을 삭제한다.

DataFrame.dropna(*, axis=0, how=_NoDefault.no_default, thresh=_NoDefault.no_default, subset=None, inplace=False, ignore_index=False)

매개변수(Parameters):

axis: {0 or 'index', 1 or 'columns'}, 기본값 0
how: {'any', 'all'}, 기본값 'any'
thresh: 정수(int) (옵션)
subset: column label or sequence of labels (옵션)
inplace: bool, 기본값 False
ignore_index: bool, 기본값 False

반환값(Returns): DataFrame or None

dpwl

거북선통통통통

이전 포스트

Pandas 기초 Random Seed (랜덤 시드)

다음 포스트

Pandas 기초 DataFrame의 속성과 기능

Data Analysis with Python

1. DataFrame의 속성

1.1 index

1.2 columns

1.3 values

1.4 dtypes

1.5 shape

1.6 size

1.7 T

2. DataFrame의 기능

2.1 head(n) & tail(n)

2.2 describe()

2.3 info()

2.4 isna(), isnull()

2.5 fillna()

2.6 dropna()

Pandas 기초 Random Seed (랜덤 시드)

Python 환경설정

0개의 댓글