[미래유망] 판다스(데이터 프레임) #05 비교, 필터링, 결측 제어

돼지인간·2025년 4월 10일

미래유망

목록 보기

15/41

초과, 미만, 이상, 이하, 같음, 다름 (gt, lt, ge, le, eq, ne)

lt, gt, le, ge, eq, ne 메서드는 DataFrame의 크기 비교를 수행하는 메서드입니다.
각각 >, <, >=, <=, ==, !=와 용도가 같습니다. 그리고 각 메서드는 사용법이 동일합니다.
※각각 less than, grater than, less equal, grater equal, equal, not equal을 뜻합니다.

사용법
df.eq(other, axis='columns', level=None)
other : 스칼라, 시퀀스, Series, DataFrame, list등이 올 수 있습니다. 비교하고자 하는 값입니다.
axis : {0 : index / 1 : columns} 비교할 레이블 입니다.
level : 멀티인덱스 사용시 비교할 레이블의 레벨입니다.

먼저, 간단한 3x3 객체를 하나 생성하겠습니다.

col = ['col1','col2','col3']
row = ['A','B','C']
df = pd.DataFrame(data=[[10,20,10],
                        [80,30,60],
                        [20,10,70]],index=row,columns=col)

print(df)

1. 스칼라값과의 비교

스칼라값과 비교할 때는 DataFrame의 각 값이 해당 스칼라와 비교되어 True 또는 False로 결과가 나타납니다.

eq() : 값이 같으면 True, 아니면 False

ne() : 값이 같지 않으면 True, 아니면 False

2. Series와의 비교

Series와 비교할 때는 Series의 index가 DataFrame의 column이나 row index와 매칭되어 비교가 이루어집니다.

gt() : 값이 크면 True

lt() : 값이 작으면 True

ge() : 값이 크거나 같으면 True

le() : 값이 작거나 같으면 True

레이블이 존재하지 않으면, 해당 레이블이 브로드캐스트됩니다.

3. axis에 따른 비교

axis 인수를 사용하여 비교의 기준을 행(index) 또는 열(columns)로 설정할 수 있습니다.

4. DataFrame과의 비교

DataFrame과 비교할 때는 각 DataFrame의 index 및 columns에 맞추어 비교가 이루어집니다. 레이블이 일치하지 않으면 해당 레이블이 브로드캐스트됩니다.

5. 멀티 인덱스의 사용 (level 인수)

멀티 인덱스를 가진 DataFrame에서 특정 level을 기준으로 비교할 수 있습니다. level 인수를 사용하면 멀티 인덱스의 특정 레벨을 기준으로 비교를 수행할 수 있습니다.

dtype기반 열 선택 (select_dtyps)

select_dtypes 함수는 열에 포함된 데이터들을 type 기준으로 인덱싱 할 수 있도록 합니다.
select_dtypes(include=None, exclude=None) 형태를 가지며, include에 넣은값을 포함하고
exclude에 넣은 값을 제외한 columns(열)을 DaraFrame 형태로 반환합니다.

사용법
df.dtypes

먼저, 아래와 같이 기본적인 4x5 행렬을 만듭니다. col1은 숫자, col2는 문자, col3은 float, col4는 bool의 dtype을 가집니다.

col1 = [1, 2, 3, 4, 5]
col2 = ['one', 'two', 'three', 'four', 'five']
col3 = [1.5, 2.5, 3.5, 4.5, 5.5]
col4 = [True, False, False, True, True]
df = pd.DataFrame({"col1": col1, "col2": col2, "col3": col3, "col4": col4})
print(df)

include사용

include에 포함될 type을 입력함으로써, 해당 type인 열만 반환하는것이 가능합니다.

exclude사용

exclude에 제외할 type을 입력함으로써, 해당 type인 열만 제외하여 반환하는것이 가능합니다.

include & exclude 혼합 사용

include에 포함될 type을, exclude에 제외할 type을 입력하여 혼용 인덱싱이 가능합니다.

임계값 적용 (clip)

clip 메서드는 Series나 DataFrame에 대해서 요소들의 범위를 제한하는 메서드입니다
즉, 상한선과 하한선을 임계값으로 정해서 임계값 밖의 값을 임계값으로 변경합니다.
NA의 경우 변경하지 않습니다.

사용법
df.clip(lower=None, upper=None, axis=None, inplace=False, args, kwargs)
lower : 하한값입니다. 이 이하의 값은 이 값으로 변경됩니다.
upper : 상한값입니다. 이 이상의 값은 이 값으로 변경됩니다.
axis : 계산할 기준이되는 레이블입니다.
inplace : 제자리에서 계산할지 여부 입니다.

먼저 간단한 3x3짜리 데이터를 만들어보겠습니다.

col  = ['col1','col2','col3']
row  = ['row1','row2','row3']
data = [[-7,3,9],
        [6,-8,1],
        [-3,0,-7]]
df = pd.DataFrame(data,row,col)
print(df)

일반적인 사용법

하한선을 -4로 상한선을 5로 clip메서드를 적용시켜보겠습니다.
즉, -4보다 작은수는 -4로. 5보다 큰 수 는 5로 변경되며 그 안의 수는 변경되지 않습니다.

임계값을 Series로 설정

임계값을 Series형태로 설정하여 각행이나 열마다 원하는 임계값의 지정이 가능합니다.
row1에는 -1~1, row2에는 -2~2, row3에는 -3~3으로 임계값을 지정해보겠습니다.
먼저 Series인 s를 설정해보겠습니다.

레이블 필터링 (filter)

filter 메서드는 레이블에 대해서 조건에 맞는 레이블만 필터링하는 메서드입니다.
특정 레이블을 이름으로 필터링하거나, 포함된 문자열을 통해 필터링하거나, 정규표현식으로 필터링이 가능합니다. 정규표현식(regular expression)의 경우 regex라고도 하며 파이썬에서는 re 메서드가 지원하는 내용과 동일합니다.

사용법
df.filter(items=None, like=None, regex=None, axis=None)
items : 이름으로 필터링하는 경우입니다. 리스트형태로 입력합니다.
like : str로 필터링합니다. 해당 문자열이 포함된 경우를 반환합니다.
regex : 정규표현식을 이용해 필터링합니다. re.search(regex, label) == True에서 사용되는 경우와 동일합니다.
axis : {0 : index / 1 : columns} 필터링할 레이블입니다. 0은 행, 1은 열 입니다.

먼저 간단한 3x5짜리 데이터를 만들어보겠습니다.

col  = ['alpha','beta','gamma','delta','epsilon']
row  = ['sigma','omega','lambda']
data = [[1,2,3,4,5],[6,7,8,9,10],[11,12,13,14,15]]
df = pd.DataFrame(data,row,col)
print(df)

items 인수를 사용하는 경우

items인수를 통해 alpha, beta 열을 필터링 해보겠습니다.

alpha, delta 열 만 필터링 된 것을 확인할 수 있다.

omega행을 필터링해보겠습니다.

like 인수를 사용하는 경우

like인수를 이용해 'ta'가 포함된 열을 필터링해보겠습니다.

ta가 들어있는 열을 추출함

regex 인수를 사용하는 경우

regex인수를 사용해서 m과 n이 포함된 열을 필터링 해보겠습니다.

g로 시작하는 경우에 대해 필터링 해보겠습니다.

a로 끝나는 경우에 대해 필터링 해보겠습니다.

샘플 추출 (sample)

sample 메서드는 DataFrame이나 Series에서 무작위로 몇개의 값(레이블)을 출력하는 메서드입니다.

사용법
df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)
n : 추출할 갯수 입니다. replace가 False면 n의 최댓값은 레이블의 갯수를 넘을수 없습니다.
frac : 추출할 비율입니다. 1보다 작은값으로 설정하며(예 : 0.3 이면 30%), n과 동시에 사용할 수 없습니다.
replace : 중복추출의 허용 여부 입니다. True로 하면 중복추출이 가능하며 n의 최댓값이 레이블의 갯수보다 커도 됩니다.
weight : 가중치입니다. 즉 레이블마다 추출될 확률을 지정할 수 있습니다. 합계가 1(100%)이 아닐경우 자동으로 1로 연산합니다.
random_state : 랜덤 추출한 값에 시드를 설정할 수 있습니다. 원하는 값을 설정하면, 항상 같은 결과를 출력합니다.
axis : {0 : index / 1 : columns} 추출할 레이블입니다.
ignore_index : index의 무시 여부입니다. True일경우 출력시 index를 무시하고 숫자로 출력합니다.

먼저 간단한 5x3짜리 데이터를 만들어보겠습니다.

col  = ['col1','col2','col3']
row  = ['row1','row2','row3','row4','row5']
data = [[1,2,3],[4,5,6],[7,8,9],[10,11,12],[13,14,15]]
df = pd.DataFrame(data,row,col)
print(df)

n의 사용과 replcae의 사용

n을 설정함으로써 원하는 갯수의 추출이 가능합니다. n을 2로 설정함으로써 2개의 행이 추출된것을 볼 수 있습니다.

랜덤으로 두개의 행을 추출하기에 실행할때마다 추출되는 행이 달라진다.

replace=True로 설정하여 행의 개수는 5개이지만 10개의 랜덤한 행을 추출하였다.

frac를 사용하는경우

frac을 통해 전체에대한 추출 비율을 정할 수 있습니다. frac을 0.4로 설정하므로써, 전체에서 40%인 2개를 추출해보겠습니다.

weights를 통한 가중치의 사용

먼저 가중치를 적용하기위해 5짜리 Series를 하나 만들어보겠습니다.

이제 이 Series s를 weights에 적용시켜보겠습니다.
가장 가중치가 높은 row1, row2가 추출된 것을 확인할 수 있습니다.
물론 가중치가 적더라도 확률적으로 추출될 가능성이 존재합니다.

random_state를 통한 동일값 재출력 허용

random_state에 원하는 값을 설정하므로써 출력 결과를 동일하게 다시 출력하는것이 가능합니다.

ignore_index의 사용

ignore_index를 True로 하면 index는 사라지고 순서대로 번호가 부여됩니다.

결측값 확인 (isna, isnull, notna, notnull)

isna 메서드와 notna 메서드는 DataFrame내의 결측값을 확인해서 bool형식으로 반환하는 메서드입니다.
isna의 경우 결측값이면 True 반환, 정상값이면 False반환이며,
notna의 경우 결측값이면False반환, 정상값이면 True를 반환합니다.

사용법
df.isna( ) / df.notna( )

먼저 다양한 결측값이 포함된 간단한 4x4짜리 데이터를 만들어보겠습니다.

col  = ['col1','col2','col3','col4']
row  = ['row1','row2','row3']
data = [[1,2,pd.NA,4],
        [np.nan,6,7,8],
        [9,10,11,None]]
df = pd.DataFrame(data,row,col)
print(df)

isna / isnull의 사용

isna나 isnull의 경우 결측값이면 True를 반환합니다.

notna / notnull의 사용

notna나 notnull의 경우 결측값이면 False를 반환합니다.

결측값 제거 (dropna)

dropna 메서드는 DataFramde내의 결측값이 포함된 레이블을 제거하는 메서드입니다.

사용법
df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
axis : {0: index / 1: columns} 결측치 제거를 진행 할 레이블입니다.
how : {'any' : 존재하면 제거 / 'all' : 모두 결측치면 제거} 제거할 유형입니다. 포함만 시켜도 제거할지, 전무 NA여야 제거할지 정할 수 있습니다.
tresh : 결측값이 아닌 값이 몇 개 미만일 경우에만 적용시키는 인수 입니다.
예를들어, tresh값이 3이라면 결측값이 아닌 값이 3개 미만일 경우에만 dropna메서드를 수행합니다.
subset : dropna메서드를 수행할 레이블을 지정합니다.
inplace : 원본을 변경할지의 여부입니다.

먼저 pd.NA가 포함된 간단한 4x5짜리 데이터를 만들어보겠습니다.

col  = ['col1','col2','col3','col4','col5']
row  = ['row1','row2','row3','row4']
data = [[1,2,3,pd.NA,5],[6,pd.NA,8,pd.NA,10],[11,12,13,14,15],[pd.NA,pd.NA,pd.NA,pd.NA,pd.NA]]
df = pd.DataFrame(data,row,col)
print(df)

axis값에 따른 결측치 제거 수행

axis가 0인경우 행에 대해서, axis가 1인경우 열에 대해서 결측치 제거가 수행됩니다.

axis값이 0인 경우에서 na가 포함되지 않은 행은 하나뿐이므로 출력이 되나
axis 값이 1인 경우에서 na가 포함되지 않은 열은 없으므로 빈값을 출력한다.

how로 연산기준을 정할 경우

기본적으로 how 는 'any'이며 이 경우 한 값이라도 NA를 가진다면 해당 레이블을 제거합니다.
how를 'all'로 할 경우 모든값이 NA인 레이블만 삭제됩니다.

thresh 를 이용하는 경우

thresh를 이용하여 정상값의 수를 보장할 수 있습니다.
thresh가 3일 경우 정상값이 3개 미만인 경우에 대해서만 결측치 보정을 진행합니다.

subset 인수를 통한 레이블 지정

subset에 리스트형태의 값을 입력함으로써 결측치 제거를 수행할 레이블을 지정할 수 있습니다.
col1, col2에 대해서 결측치가 있는경우만 제거되었습니다.

inplcae 인수를 통한 원본의 수정

Pandas에서 공통적으로 inplace 인수는 원본의 수정을 의미합니다. inplace가 True인 경우 원본이 수정됩니다.

이제 원본에도 적용이 되었다

결측값 없는 인덱스 확인 (first_valid_index / last_valid_index)

first_valid_index메서드의 경우 처음으로 결측치가 아닌값이 나오는 행의 인덱스를 출력합니다.
last_valid_index메서드의 경우 마지막으로 결측치가 아닌값이 나오는 행의 인덱스를 출력합니다.
즉, 결측값만 있는 행은 무시한다고 생각하면 됩니다.

사용법
df.first_valid_index( )
df.last_valid_index( )

먼저 다양한 결측값이 포함된 간단한 5x2짜리 데이터를 만들어보겠습니다.

col  = ['col1','col2']
row  = ['row1','row2','row3','row4','row5']
data = [[np.nan,np.nan],[pd.NA,4],[pd.NA,pd.NaT],[5,6],[np.nan,pd.NA]]
df = pd.DataFrame(data,row,col)
print(df)

first_valid_index의 사용

first_valid_index메서드의 경우 처음으로 결측치가 아닌값이 나오는 행의 인덱스를 출력합니다.
이 경우 row2에서 처음으로 정상값인 4가 있으므로 row2를 출력합니다.

last_valid_index의 사용

last_valid_index메서드의 경우 마지막으로 결측치가 아닌값이 나오는 행의 인덱스를 출력합니다.
이 경우 row4이후에는 정상값이 없으므로 row4를 출력합니다.

결측값 변경 (fillna / backfill / bfill / pad / ffill)

fillna 메서드는 DataFrame에서 결측값을 원하는 값으로 변경하는 메서드입니다.

사용법
df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
value : 결측값을 대체할 값입니다. dict형태로도 가능합니다.
method : 결측값을 변경할 방식입니다. bfill로 할경우 결측값을 바로 아래 값과 동일하게 변경합니다.
ffill로 할 경우 결측값을 바로 위 값과 동일하게 변경합니다.
axis : {0 : index / 1 : columns} fillna 메서드를 적용할 레이블입니다.
inplace : 원본을 변경할지 여부입니다. True일 경우 원본을 변경하게 됩니다.
limit : 결측값을 변경할 횟수입니다. 위에서부터 limit로 지정된 갯수만큼만 변경합니다.
downcast : 다운캐스트할지 여부입니다. downcast='infer'일 경우 float64를 int64로 변경합니다.

먼저 다양한 결측값이 포함된 간단한 5x5짜리 데이터를 만들어보겠습니다

col  = ['col1','col2','col3','col4','col5']
row  = ['row1','row2','row3','row4','row5']
na = np.nan
data = [[na, 2,na, 4,na],
        [ 6, 7,na, 9,na],
        [11,na,na,14,15],
        [na,17,na,na,20],
        [na,22,na,na,25]]
df = pd.DataFrame(data,row,col)
print(df)

value의 형식에 따른 사용

value가 숫자나 문자일 경우 그대로 결측값을 대체하게 됩니다. 여기서는 A로 바꿔보겠습니다.

결측치가 다 A로 바뀌는 것을 확인할 수 있다.

dict형태로 입력할 경우 각각 레이블값에 대해 원하는 값으로의 변경이 가능합니다.

method인수를 사용하는 경우

method인수에 bfill을 입력할 경우 결측값이 바로 아래값과 동일하게 설정됩니다.
method인수에 ffill을 입력할 경우 결측값이 바로 위값과 동일하게 설정됩니다.

limit인수를 사용하는 경우

limit인수는 각 레이블값에 대해서 결측치 변경을 수행할 횟수입니다. 행 기준일경우 왼쪽부터, 열 기준일 경우 위에서부터 수행합니다.

downcast인수를 사용하는 경우

downcast 인수를 'infer'로 설정함으로써 float64형태를 int64형태로 변경할 수 있습니다.

inplace를 사용하는 경우

다른 파이썬 객체에서와 마찬가지로 inplace는 원본을 덮어씌우는 기능과 유사한 기능알 합니다.
즉 df.fillna(0, inplace=True) 는 df=df.fillna(0)과 동일한 기능을 합니다.

결측값 없는 마지막 행 반환 (asof)

asof 메서드는 인덱스 기준으로 where이전에 결측치가 없는 마지막 행을 구합니다.

사용법
df.asof(where, subset=None)
where : 기준이 되는 인덱스 값입니다.
subset : 기준이 되는 열 입니다.

먼저 결측치가 포함된 6x2짜리 객체를 생성해보겠습니다..

row = [10,20,30,40,50,60]
data = {'A':[1,na,na,4,5,6],'B':[7,8,9,10,na,12]}
df = pd.DataFrame(data=data, index = row)
print(df)

기본적인 사용법

where이 단일값이면 반환은 Series형태로 하게 됩니다. subset을 입력하지 않으면 모든 열에대해서 조건을 만족하는 경우를 반환합니다.

입력값이 list인 경우

입력값이 list인 경우 list의 각각 요소에 대해 조건을 만족하는 행을 DataFrame 형태로 반환합니다.

10이전에 A와 B모두 결측치가 없는 행은 10입니다.
45이전에 A와 B모두 결측치가 없는 행은 40입니다.
60이전에 A와 B모두 결측치가 없는 행은 60입니다.

subset의 사용

subset을 이용해 특정 열에 대해서만 만족하는 경우를 반환할 수 있습니다.
A에 대해서만 연산 할 경우

B에 대해서만 연산 할 경우

돼지인간

안녕하세요 게임개발을 공부하고 있는 돼지인간 입니다.

이전 포스트

[미래유망] 판다스(데이터 프레임) #04 함수 적용, 인덱싱

다음 포스트