[Data Handling] Pandas :: (5) DataFrame Operations

연두·2021년 2월 16일

Python for ML

목록 보기

17/34

import pandas as pd
from pandas import Series
from pandas import DataFrame

import numpy as np

s1 = Series(range(1,6), index=list("abcde"))
s1

a 1
b 2
c 3
d 4
e 5
dtype: int64

s2 = Series(range(5, 11), index=list("cdefgh"))
s2

c 5
d 6
e 7
f 8
g 9
h 10
dtype: int64

s1.add(s2)

a NaN
b NaN
c 8.0
d 10.0
e 12.0
f NaN
g NaN
h NaN
dtype: float64

s1 + s2  # index를 기준으로 연산 수행 / 겹치는 인덱스가 없는 경우 NaN값 반환

a NaN
b NaN
c 8.0
d 10.0
e 12.0
f NaN
g NaN
h NaN
dtype: float64

df1 = DataFrame(np.arange(9).reshape(3,3), columns=list("abc"))
df1

df2 = DataFrame(np.arange(16).reshape(4,4), columns=list("abcd"))
df2

df1 + df2  # df는 column과 index를 모두 고려

df1.add(df2, fill_value=0)  #add operation을 쓰면 NaN 값을 0으로 변환

df1.add(df2, fill_value=2)

df = DataFrame(np.arange(16).reshape(4,4), columns=list("abcd"))
df

s = Series(np.arange(10,14), index=list("abcd"))
s

a 10
b 11
c 12
d 13
dtype: int32

df + s  #column을 기준으로 broadcasting이 발생

s2 = Series(np.arange(10,14))
s2

0 10
1 11
2 12
3 13
dtype: int32

df + s2

df.add(s2, axis=0)  # axis를 기준으로 row broadcasting 실행