Pandas는 데이터 분석에 있어 가장 기본이자 필수적인 라이브러리다.
하지만 기능이 워낙 방대하다 보니, 처음 시작할 때는
"도대체 어떤 메서드부터 익혀야 할까?" 라는 고민이 들 수밖에 없다.
나 역시 처음에는 수십 개의 메서드 중 무엇이 중요한지 헷갈렸고, 문서나 튜토리얼을 따라가다가도 방향을 잡지 못했었다.
그래서 이번 글에서는 실제 데이터 전처리와 분석 과정에서 가장 자주 사용되는 Pandas 메서드 10개를 모아 각각의 기능과 예제를 정리해 보았다.
Pandas를 막 시작했거나, 기초를 정리하고 싶은 분들께 도움이 되기를 바란다.
.describe(): 데이터 요약 통계 확인import pandas as pd
df = pd.DataFrame({'Age': [20, 21, 23, 24, 100]})
df.describe()
count, mean, std, min, 25%, 50%, 75%, max를 자동으로 계산해 준다.
.apply(): 함수 적용 (열 또는 행 단위)df['AgeGroup'] = df['Age'].apply(lambda x: 'Senior' if x > 65 else 'Adult')
.apply()는 행(axis=1)이나 열(axis=0) 단위로도 적용 가능.
.sort_values(): 값 기준 정렬df.sort_values(by='Age', ascending=False)
.tail(): 마지막 N개 데이터 확인df.tail(3) # 마지막 3개 행
.replace(): 값 대체df['Sex'] = df['Sex'].replace({'남자': 'Male', '여자': 'Female'})
pd.to_numeric(): 문자열을 숫자형으로 변환NaN으로 바꾸기 (errors='coerce')df['Score'] = pd.to_numeric(df['Score'], errors='coerce')
.get_dummies(): 범주형 → 숫자형 (One-hot Encoding)pd.get_dummies(df, columns=['Embarked'])
.groupby() + .agg(): 그룹별 요약 집계df.groupby('Sex')['Age'].agg(['mean', 'max', 'min'])
.merge(): 두 데이터프레임 병합pd.merge(df1, df2, on='id', how='left')
left, right, inner, outer 등 다양한 방식의 병합이 가능하다.
.value_counts(): 값의 빈도수 확인df['Survived'].value_counts()
이렇게 Pandas에서 자주 사용되는 메소드 10개를 정리해 보았다.
| 메서드 | 기능 요약 |
|---|---|
describe() | 전체 수치 데이터 요약 통계 확인 |
apply() | 사용자 정의 함수 적용 |
sort_values() | 데이터 정렬 |
tail() | 마지막 몇 개 행 확인 |
replace() | 특정 값 다른 값으로 바꾸기 |
to_numeric() | 문자열 → 숫자형 변환 |
get_dummies() | 범주형 변수 → One-hot Encoding |
groupby().agg() | 그룹 단위로 요약 통계 계산 |
merge() | 두 데이터프레임 병합 (JOIN) |
value_counts() | 고유값 빈도수 확인 |
처음에는 생소하게 느껴졌던 Pandas 메서드들도, 몇 번만 실습해 보면 금세 익숙해지고 자연스럽게 손이 가게 될 것이다.
시간 날 때마다 하나씩 예제를 따라해보면서,
필요한 순간에 떠오를 수 있을 정도로 익숙해지길 바란다.