csv ํ์ผ ์ ์ฅํ๊ธฐ: .to_csv(โ.file_name.csvโ)
csv ํ์ผ ์ฝ์ด์ค๊ธฐ: pd.read_csv(โfile_name.csvโ)
์ปฌ๋ผ ์ด๋ฆ ๋ณ๊ฒฝ
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'gender': ['female', 'male', 'male']
}
df = pd.DataFrame(data)
df.rename(columns={'๋์ด': 'age', '์ฑ๋ณ': '๋จ/์ฌ'})
df.head()
: ๋ฐ์ดํฐ์ ๋จธ๋ฆฌ ๋ถ๋ถ์ ํ์ธ ๊ฐ๋ฅdf.info()
: ๋ฐ์ดํฐ์ ์ ๋ณด(์ปฌ๋ผ, null ๊ฐ ํ์ธ, ๋ฐ์ดํฐ ํ์
)๋ฅผ ํ์ธ ๊ฐ๋ฅdf.describe()
: ๋ฐ์ดํฐ์ ๋ค์ํ ํต๊ณ๋์ ์์ฝํด์ค๋ค..iloc
: ๋ฐ์ดํฐํ๋ ์์ ํ์ด๋ ์ปฌ๋ผ์ย ์ธ๋ฑ์คย ๊ฐ์ผ๋ก ์ ๊ทผ.loc
: ๋ฐ์ดํฐํ๋ ์์ ํ์ด๋ ์ปฌ๋ผ์ย label์ด๋ boolean array๋ก ์ ๊ทผisin()
: Series(์๋ฆฌ์ฆ)๋ DataFrame(๋ฐ์ดํฐํ๋ ์)์ ๊ฐ๋ค ์ค์์ ํน์ ๊ฐ์ด๋ ๋ฆฌ์คํธ ์์ ํฌํจ๋ ๊ฐ๋ค์ ์ฐพ์๋ด๋ ๋ฉ์๋concat()
: ๋ฐ์ดํฐํ๋ ์์ย ์์๋๋กย ํน์ย ์ข์ฐ๋กย ์ฐ๊ฒฐmerge()
: ๋ ๊ฐ ์ด์์ ๋ฐ์ดํฐํ๋ ์์์ ๊ณตํต๋ ์ด์ด๋ ์ธ๋ฑ์ค๋ฅผ ๊ธฐ์ค์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ข์ฐ๋ก ํฉ์น๋คleft
์ย right
: ๋ณํฉํ ๋ฐ์ดํฐํ๋ ์ ์ค ๋ณํฉ๋๋ ๊ธฐ์ค์ด ๋๋ ์ผ์ชฝ(left)๊ณผ ์ค๋ฅธ์ชฝ(right) ๋ฐ์ดํฐํ๋ ์์
๋๋ค.how
: ๋ณํฉ ๋ฐฉ๋ฒ์ ๋ํ๋ด๋ ๋งค๊ฐ๋ณ์๋ก, 'inner', 'outer', 'left', 'right' ๋ฑ์ ์ต์
์ด ์๋ค.on
: ๋ณํฉ ๊ธฐ์ค์ด ๋๋ ์ด ์ด๋ฆ(ํน์ ์ด ์ด๋ฆ์ ๋ฆฌ์คํธ)์ ์ง์ .left_on
๊ณผย right_on
: ์ผ์ชฝ ๋ฐ์ดํฐํ๋ ์๊ณผ ์ค๋ฅธ์ชฝ ๋ฐ์ดํฐํ๋ ์์์ ๋ณํฉํ ์ด ์ด๋ฆ์ด ๋ค๋ฅธ ๊ฒฝ์ฐ์ ์ฌ์ฉ.groupby()
: ๋ฐ์ดํฐํ๋ ์์ ๊ทธ๋ฃนํํ๊ณ , ๊ทธ๋ฃน ๋จ์๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถํ (split), ์ ์ฉ(apply), ๊ฒฐํฉ(combine)ํ๋ ๊ธฐ๋ฅ์ ์ ๊ณตpivot_table()
: ๋ฐ์ดํฐํ๋ ์์์ ํผ๋ฒ ํ
์ด๋ธ์ ์์ฑํ๋ ๋ฐ ์ฌ์ฉpivot = df.pivot_table(index='Date', columns='Category', values='Value', aggfunc='sum')
sort_values()
: ์ปฌ๋ผ ๊ธฐ์คsort_index()
: ์ธ๋ฑ์ค ๊ธฐ์ค