[비정제 데이터] 자주 쓰는 Pandas 메서드 10개: 예제로 알아보기

jul ee·2025년 4월 14일

pandas python 데이터사이언티스트 모두의연구소

데이터 성장기

목록 보기

42/139

Pandas는 데이터 분석에 있어 가장 기본이자 필수적인 라이브러리다.

하지만 기능이 워낙 방대하다 보니, 처음 시작할 때는
"도대체 어떤 메서드부터 익혀야 할까?" 라는 고민이 들 수밖에 없다.

나 역시 처음에는 수십 개의 메서드 중 무엇이 중요한지 헷갈렸고, 문서나 튜토리얼을 따라가다가도 방향을 잡지 못했었다.

그래서 이번 글에서는 실제 데이터 전처리와 분석 과정에서 가장 자주 사용되는 Pandas 메서드 10개를 모아 각각의 기능과 예제를 정리해 보았다.

Pandas를 막 시작했거나, 기초를 정리하고 싶은 분들께 도움이 되기를 바란다.

`.describe()`: 데이터 요약 통계 확인

수치형 변수의 평균, 표준편차, 사분위수 등 요약 통계를 보여준다.
e.g., 전체 데이터의 분포와 이상치를 파악

import pandas as pd

df = pd.DataFrame({'Age': [20, 21, 23, 24, 100]})
df.describe()

count, mean, std, min, 25%, 50%, 75%, max를 자동으로 계산해 준다.

`.apply()`: 함수 적용 (열 또는 행 단위)

사용자 정의 함수를 Series 또는 DataFrame에 적용한다.
e.g., 복잡한 조건 처리, 계산식 적용 등

df['AgeGroup'] = df['Age'].apply(lambda x: 'Senior' if x > 65 else 'Adult')

.apply()는 행(axis=1)이나 열(axis=0) 단위로도 적용 가능.

`.sort_values()`: 값 기준 정렬

특정 열을 기준으로 데이터 정렬한다.
오름차순/내림차순 모두 가능

df.sort_values(by='Age', ascending=False)

`.tail()`: 마지막 N개 데이터 확인

DataFrame의 마지막 몇 개 행을 반환한다.
→ 최신 로그나 데이터가 마지막에 위치할 때가 많기 때문

df.tail(3)  # 마지막 3개 행

`.replace()`: 값 대체

특정 값을 다른 값으로 치환한다.
e.g., '남자' → 'Male', '여자' → 'Female'

df['Sex'] = df['Sex'].replace({'남자': 'Male', '여자': 'Female'})

`pd.to_numeric()`: 문자열을 숫자형으로 변환

숫자로 보이는 문자열을 int/float로 변환한다.
오류가 나면 NaN으로 바꾸기 (errors='coerce')

df['Score'] = pd.to_numeric(df['Score'], errors='coerce')

`.get_dummies()`: 범주형 → 숫자형 (One-hot Encoding)

범주형 변수의 각 고유값을 0/1로 인코딩한다.
→ 머신러닝 모델은 문자열을 인식하지 못하므로 숫자로 변환 필요

pd.get_dummies(df, columns=['Embarked'])

`.groupby()` + `.agg()`: 그룹별 요약 집계

특정 열을 기준으로 데이터를 그룹화하여 통계 계산한다.
e.g., 성별 평균 나이, 탑승지별 생존율 등

df.groupby('Sex')['Age'].agg(['mean', 'max', 'min'])

`.merge()`: 두 데이터프레임 병합

공통된 열이나 인덱스를 기준으로 데이터를 합친다.
SQL의 JOIN과 유사

pd.merge(df1, df2, on='id', how='left')

left, right, inner, outer 등 다양한 방식의 병합이 가능하다.

`.value_counts()`: 값의 빈도수 확인

고유값이 몇 번 등장했는지 확인한다.
분석 초기에 데이터 분포 파악할 때 유용

df['Survived'].value_counts()

이렇게 Pandas에서 자주 사용되는 메소드 10개를 정리해 보았다.

메서드	기능 요약
`describe()`	전체 수치 데이터 요약 통계 확인
`apply()`	사용자 정의 함수 적용
`sort_values()`	데이터 정렬
`tail()`	마지막 몇 개 행 확인
`replace()`	특정 값 다른 값으로 바꾸기
`to_numeric()`	문자열 → 숫자형 변환
`get_dummies()`	범주형 변수 → One-hot Encoding
`groupby().agg()`	그룹 단위로 요약 통계 계산
`merge()`	두 데이터프레임 병합 (JOIN)
`value_counts()`	고유값 빈도수 확인

처음에는 생소하게 느껴졌던 Pandas 메서드들도, 몇 번만 실습해 보면 금세 익숙해지고 자연스럽게 손이 가게 될 것이다.

시간 날 때마다 하나씩 예제를 따라해보면서,
필요한 순간에 떠오를 수 있을 정도로 익숙해지길 바란다.

jul ee

AI에 관심을 가지고, 데이터로 가치를 만들어 나가는 과정을 기록합니다.

이전 포스트

[비정제 데이터] mean vs. median, 결측치 처리할 때 무엇을 선택할까?

다음 포스트

[비정제 데이터] 자주 쓰는 Pandas 메서드 10개: 예제로 알아보기

데이터 성장기

`.describe()`: 데이터 요약 통계 확인

`.apply()`: 함수 적용 (열 또는 행 단위)

`.sort_values()`: 값 기준 정렬

`.tail()`: 마지막 N개 데이터 확인

`.replace()`: 값 대체

`pd.to_numeric()`: 문자열을 숫자형으로 변환

`.get_dummies()`: 범주형 → 숫자형 (One-hot Encoding)

`.groupby()` + `.agg()`: 그룹별 요약 집계

`.merge()`: 두 데이터프레임 병합

`.value_counts()`: 값의 빈도수 확인

[비정제 데이터] mean vs. median, 결측치 처리할 때 무엇을 선택할까?

[비정제 데이터] matplotlib vs. seaborn 시각화 비교

0개의 댓글

[비정제 데이터] 자주 쓰는 Pandas 메서드 10개: 예제로 알아보기

데이터 성장기

.describe(): 데이터 요약 통계 확인

.apply(): 함수 적용 (열 또는 행 단위)

.sort_values(): 값 기준 정렬

.tail(): 마지막 N개 데이터 확인

.replace(): 값 대체

pd.to_numeric(): 문자열을 숫자형으로 변환

.get_dummies(): 범주형 → 숫자형 (One-hot Encoding)

.groupby() + .agg(): 그룹별 요약 집계

.merge(): 두 데이터프레임 병합

.value_counts(): 값의 빈도수 확인

[비정제 데이터] mean vs. median, 결측치 처리할 때 무엇을 선택할까?

[비정제 데이터] matplotlib vs. seaborn 시각화 비교

0개의 댓글

`.describe()`: 데이터 요약 통계 확인

`.apply()`: 함수 적용 (열 또는 행 단위)

`.sort_values()`: 값 기준 정렬

`.tail()`: 마지막 N개 데이터 확인

`.replace()`: 값 대체

`pd.to_numeric()`: 문자열을 숫자형으로 변환

`.get_dummies()`: 범주형 → 숫자형 (One-hot Encoding)

`.groupby()` + `.agg()`: 그룹별 요약 집계

`.merge()`: 두 데이터프레임 병합

`.value_counts()`: 값의 빈도수 확인