데이터 전처리 & 시각화 3

DA_LEESUNHO·2025년 11월 17일

Learning Base

목록 보기

13/15

해당 세션을 진행하는 동안에는 Anaconda Jupyter Notebook 으로 진행한다.

오늘은 SQL 의 JOIN 기능과 같은 Pandas 함수를 배웠다
간단히 이론부분만 정리하고 실습은 노트북 환경에서 진행한다

각 라이브러리의 함수에 대한 모든 문법을 외울 수는 없다
어떠한 기능을 필요로 할 때,
어떤 라이브러리에 어떤 함수를 사용하면 되는지를 알아두자

SQL 의 JOIN 과 같은 기능
Pandas에 내장된 함수
테이블의 공통컬럼을 기준으로 병합한다

주요 파라미터는 다음과 같다.
: on
: how
: left / right on
: sort : (병합 후) 인덱스 정렬 여부
: suffixes : 중복 컬럼 이름 처리
: indicator

# how, on 옵션을 통해 구체적으로 지정 가능
merge_df = pd.merge
(df2,df3, how='inner', left_on='Customer ID', right_on='user id')

SQL 의 JOIN 과 유사
df(데이터프레임)의 메소드
인데스 기준으로 병합한다

주요 파라미터는 다음과 같다.
_: on
: how
: lsuffix / rsuffix : 이름 같은 컬럼, 문자열 지정 부여
: sort : (병합 후) 인덱스 정렬 여부
: suffixes : 중복 컬럼 이름 처리

# join시 이름이 같은 컬럼이 있을 경우, 옵션으로 설정하여 조인 가능
df.join(df2)
# 위 코드는 오류가 남
df.join(df2,how='left', lsuffix='1', rsuffix='2')
# 동일명 컬럼 지정 후 오류발생 x

SQL 의 UNION 과 같은 기능
DF(데이터프레임) 혹은 특정 축을 연결하는데 사용

주요 파라미터는 다음과 같다.
: axis : 수직(=0) / 수평(=1)결합
: join : 조인방식
: join_axes : 조인 축 지정
: keys : df 축이름 지정
: ignore_index : 인덱스 재배열

# 수직결합
pd.concat([df2, df3], axis=0, ignore_index=True, join='inner')

# 수평결합
pd.concat([df2, df3], axis=1, ignore_index=True, join='inner')

성장과 회고를 기록하는 일기장