[data science] pandas - join 연산

덴장·2026년 5월 1일

data

목록 보기
48/55
post-thumbnail

데이터를 효과적으로 결합하기 위한 방법인 조인(Join) 연산에는 Inner Join, Left Outer Join, Right Outer Join, Full Outer Join이 있으며, 각 방법은 서로 다른 기준으로 데이터를 병합

  1. Inner Join: 두 데이터에 모두 들어 있는 공통 값들만을 찾아서 합쳐주는 연산입니다.

  2. Left Outer Join: 왼쪽 데이터를 기준으로 합치며, 왼쪽 데이터에 있는 값은 모두 포함하고 오른쪽 데이터에 공통으로 있는 값만 추가합니다.

  3. Right Outer Join: 오른쪽 데이터를 기준으로 합치며, 오른쪽 데이터에 있는 값은 모두 포함하고 왼쪽 데이터에 공통으로 있는 값만 추가합니다.

  4. Full Outer Join: 두 데이터에 있는 모든 값을 합쳐 주며, 상호 간에 없는 값은 결측값으로 처리합니다.

*주로 Inner Join과 Left Outer Join이 사용.

  • 인사이트 도출
import pandas as pd

employee_df = pd.read_csv('data/employee.csv')
survey_df = pd.read_csv('data/survey.csv')
servey_df=survey_df.rename(columns={'id':'employee_id'})

servey_df
condition = company_df['resign'] =='Y'
company_df[condition] # 퇴사자 추출

company_df[condition].describe() #퇴사한 직원
company_df[-condition].describe()#퇴사하지않은 직원


-> 두 데이터 비교시 퇴사자가 커리어 개발에 대한 만족도가 떨어짐을 도출.

profile
개발자

0개의 댓글