기초 EDA를 위한 pandas functions

yuns_u·2021년 7월 11일
0

Useful Pandas Functions

❤️ Missing Data(결측치)

결측치란(Missing Data) 말 그대로 누락된 값, 비어 있는 값이라는 뜻이다.

결측치가 있으면 함수가 적용되지 않거나 분석 결과가 왜곡되는 문제가 있기 때문에 결측치를 채우거나 제거하는 등의 방법으로 결측치가 가져올 수 있는 문제를 해결해야한다.

결측치를 해결하는 방법

1. 제거하기 & 삭제하기 (Deletion)

1) Listwise : 결측치가 존재하는 행이나 열 자체를 지우기
2) Pairwise : 결측치가 존재하는 행이나 열에서 결측치만 지우기

2. 채우기 & 보간하기 (Imputation)

1) Popular Averaging Techniques : 평균(mean),중앙값(median), 모드(mode) 등으로 결측치를 유추하여 채워넣기
2) Predictive Techniques : 다양한 통계 방식으로 결측치를 예상하여 임의의 값으로 넣어주기.

결측치와 관련된 pandas functions

.isna
.isnull
.notna
.notnull
.dropna
.fillna

🧡 Data Frame

.index
.columns
.dtypes
.info
.select_dtypes
.loc
.iloc
.insert
.head
.tail
.apply
.aggregate
.drop
.rename
.replace
.nsmallest
.nlargest
.sort_values
.sort_index
.value_counts
.describe
.shape

💛 Visualization

.plot
.plot.area
.plot.bar
.plot.barh
.plot.box
.plot.density
.plot.hexbin
.plot.hist
.plot.kde
.plot.line
.plot.pie
.plot.scatter

위의 함수들은 사실 판다스 공식 문서에서 자세히 설명되어 있지만 최근에 자주 썼던 함수들을 다시 보니까 이 함수는 이럴 때 썼었지! 하면서 기억이 나는 부분이 있다. 이 포스트는 틈틈히 와서 간단하게 한글로 기능을 적어두면 좋을 것 같다.

profile
💛 공부 블로그 💛

0개의 댓글