# 컬럼별 결측치 개수
print('전체 데이터 수:', len(df))
# 행별 결측치 확인
df[df.isnull().any(axis=1)]
# 중복된 데이터 여부
df[df.duplicated()]
# 중복된 데이터 제거
df.drop_duplicates(inplace=True)
# id가 중복된 경우 맨 나중에 들어온 값 남기고 제거
df.drop_duplicates(subset=['id'], keep='last')
# get_dummies으로 국가명을 0, 1로 변경
pd.get_dummies(df['국가명'])
연속적인 데이터를 구간을 나눠 분석할 때 사용
pandas의 cut 과 qcut을 이용
# 6개 구간으로 나눠짐
pd.cut(salary, bins=6)
# 백분율 기반으로 5개 구간으로 나눠짐
pd.qcut(salary, q=5)