[비정제 데이터] 자주 쓰는 Pandas 메서드 10개: 예제로 알아보기

jul ee·2025년 4월 14일

데이터 성장기

목록 보기
42/139

Pandas는 데이터 분석에 있어 가장 기본이자 필수적인 라이브러리다.

하지만 기능이 워낙 방대하다 보니, 처음 시작할 때는
"도대체 어떤 메서드부터 익혀야 할까?" 라는 고민이 들 수밖에 없다.

나 역시 처음에는 수십 개의 메서드 중 무엇이 중요한지 헷갈렸고, 문서나 튜토리얼을 따라가다가도 방향을 잡지 못했었다.

그래서 이번 글에서는 실제 데이터 전처리와 분석 과정에서 가장 자주 사용되는 Pandas 메서드 10개를 모아 각각의 기능과 예제를 정리해 보았다.

Pandas를 막 시작했거나, 기초를 정리하고 싶은 분들께 도움이 되기를 바란다.



.describe():  데이터 요약 통계 확인

  • 수치형 변수의 평균, 표준편차, 사분위수 등 요약 통계를 보여준다.
    e.g., 전체 데이터의 분포와 이상치를 파악
import pandas as pd

df = pd.DataFrame({'Age': [20, 21, 23, 24, 100]})
df.describe()

count, mean, std, min, 25%, 50%, 75%, max를 자동으로 계산해 준다.


.apply():  함수 적용 (열 또는 행 단위)

  • 사용자 정의 함수를 Series 또는 DataFrame에 적용한다.
    e.g., 복잡한 조건 처리, 계산식 적용 등
df['AgeGroup'] = df['Age'].apply(lambda x: 'Senior' if x > 65 else 'Adult')

.apply()는 행(axis=1)이나 열(axis=0) 단위로도 적용 가능.


.sort_values():  값 기준 정렬

  • 특정 열을 기준으로 데이터 정렬한다.
  • 오름차순/내림차순 모두 가능
df.sort_values(by='Age', ascending=False)

.tail():  마지막 N개 데이터 확인

  • DataFrame의 마지막 몇 개 행을 반환한다.
    →  최신 로그나 데이터가 마지막에 위치할 때가 많기 때문
df.tail(3)  # 마지막 3개 행

.replace():  값 대체

  • 특정 값을 다른 값으로 치환한다.
    e.g., '남자' → 'Male',  '여자' → 'Female'
df['Sex'] = df['Sex'].replace({'남자': 'Male', '여자': 'Female'})

pd.to_numeric():  문자열을 숫자형으로 변환

  • 숫자로 보이는 문자열을 int/float로 변환한다.
  • 오류가 나면 NaN으로 바꾸기 (errors='coerce')
df['Score'] = pd.to_numeric(df['Score'], errors='coerce')

.get_dummies():  범주형 → 숫자형 (One-hot Encoding)

  • 범주형 변수의 각 고유값을 0/1로 인코딩한다.
    →  머신러닝 모델은 문자열을 인식하지 못하므로 숫자로 변환 필요
pd.get_dummies(df, columns=['Embarked'])

.groupby() + .agg():  그룹별 요약 집계

  • 특정 열을 기준으로 데이터를 그룹화하여 통계 계산한다.
    e.g., 성별 평균 나이, 탑승지별 생존율 등
df.groupby('Sex')['Age'].agg(['mean', 'max', 'min'])

.merge():  두 데이터프레임 병합

  • 공통된 열이나 인덱스를 기준으로 데이터를 합친다.
  • SQL의 JOIN과 유사
pd.merge(df1, df2, on='id', how='left')

left, right, inner, outer 등 다양한 방식의 병합이 가능하다.


.value_counts():  값의 빈도수 확인

  • 고유값이 몇 번 등장했는지 확인한다.
  • 분석 초기에 데이터 분포 파악할 때 유용
df['Survived'].value_counts()


이렇게 Pandas에서 자주 사용되는 메소드 10개를 정리해 보았다.

메서드기능 요약
describe()전체 수치 데이터 요약 통계 확인
apply()사용자 정의 함수 적용
sort_values()데이터 정렬
tail()마지막 몇 개 행 확인
replace()특정 값 다른 값으로 바꾸기
to_numeric()문자열 → 숫자형 변환
get_dummies()범주형 변수 → One-hot Encoding
groupby().agg()그룹 단위로 요약 통계 계산
merge()두 데이터프레임 병합 (JOIN)
value_counts()고유값 빈도수 확인

처음에는 생소하게 느껴졌던 Pandas 메서드들도, 몇 번만 실습해 보면 금세 익숙해지고 자연스럽게 손이 가게 될 것이다.

시간 날 때마다 하나씩 예제를 따라해보면서,
필요한 순간에 떠오를 수 있을 정도로 익숙해지길 바란다.

profile
AI에 관심을 가지고, 데이터로 가치를 만들어 나가는 과정을 기록합니다.

0개의 댓글