Pandas 기초 DataFrame의 속성과 기능

dpwl·2024년 6월 20일

Data Analysis with Python

목록 보기
7/48

1. DataFrame의 속성

1.1 index

index는 데이터프레임의 인덱스(행의 라벨)를 조회한다.

DataFrame.index

1.2 columns

columns는 데이터프레임의 컬럼(열의 라벨)을 조회한다.

DataFrame.columns

1.3 values

values는 데이터프레임의 값들을 2차원 Numpy 배열로 반환한다.

DataFrame.values

반환값(Returns): numpy.ndarray

1.4 dtypes

dtypes는 각 열의 데이터 타입을 시리즈로 반환한다.

DataFrame.dtypes

반환값(Returns): pandas.Series

1.5 shape

shape 속성은 데이터프레임의 형태를 튜플로 변환한다.

shape 튜블 형태: (행의 수, 열의 수)

DataFrame.shape

1.6 size

size 속성은 데이터프레임에 있는 총 원소의 개수를 숫자로 반환한다. (= 행의 개수 x 열의 개수)

DataFrame.size

1.7 T

T 속성은 데이터프레임의 전치(transpose)를 반환한다. (행과 열을 바꾼 데이터프레임)

DataFrame.T

반환값(Returns): DataFrame

예시:

df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
df
col1 col2
0 1 3
1 2 4

df.T
0 1
col1 1 2
col2 3 4

2. DataFrame의 기능

2.1 head(n) & tail(n)

데이터프레임의 첫(head) 또는 마지막(tail) n개의 항목을 반환한다.

DataFrame.head(n=5)
DataFrame.tail(n=5)

2.2 describe()

describe()는 데이터프레임의 기초 통계 정보를 요약하여 시리즈나 데이터프레임을 반환 (평균, 표준편차, 최솟값, 최댓값, 중간값 등)

  • 데이터 타입이 object, number인 시리즈가 있는 경우, 타입이 number 열(column)의 통계만 기본 반환
  • include 파라미터 조정하여 전체 통계도 접근 가능
DataFrame.describe(percentiles=None, include=None, exclue=None)

매개변수(Parameters):

  • include: 'all, list-like of dtypes or None (default), optional

2.3 info()

info()는 데이터프레임의 요약 정보를 출력 (각 열의 데이터 타입, 누락된 값의 개수 등)

DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)

2.4 isna(), isnull()

데이터프레임의 각 요소가 누락된 값(NA 또는 NaN)인지 여부를 나타내는 불리언 데이터프레임을 반환한다.

DataFrame.isna()
DataFrame.isnull()

2.5 fillna()

fillna() 함수는 누락된 값에 대해 다른 값으로 대체한다.

DataFrame.fillna(value=None, *, method=None, axis=None, inplace=False, limit=None, downcast=None)

매개변수(Parameters):

  • value: scalar, dict, Series, or DataFrame
  • axis: {0 or 'index', 1 or 'columns'}

2.6 dropna()

dropna() 함수는 누락된 값(NaN)이 있는 행을 삭제한다.

DataFrame.dropna(*, axis=0, how=_NoDefault.no_default, thresh=_NoDefault.no_default, subset=None, inplace=False, ignore_index=False)

매개변수(Parameters):

  • axis: {0 or 'index', 1 or 'columns'}, 기본값 0
  • how: {'any', 'all'}, 기본값 'any'
  • thresh: 정수(int) (옵션)
  • subset: column label or sequence of labels (옵션)
  • inplace: bool, 기본값 False
  • ignore_index: bool, 기본값 False

반환값(Returns): DataFrame or None

profile
거북선통통통통

0개의 댓글