[파이썬] 데이터 전처리 과제

HEY! MIN·2024년 10월 23일

Seaborn 내장데이터 셋을 활용해서 데이터를 전처리

iris 데이터셋을 활용해서 전처리

import seaborn as sns

# 데이터셋 불러오기
iris_data = sns.load_dataset('iris')
#Q1. 'species' 열 값이 'setosa'인 데이터 선택하기
setosa_data = iris_data.loc[iris_data['species']=='setosa']
setosa_data
#Q2. 10부터 20까지의 행과 1부터 3까지의 열 선택하기
iris_data.iloc[10:21, 1:4]

tips 데이터셋을 활용해서 전처리

import seaborn as sns
import pandas as pd

# 데이터셋 불러오기
tips_data = sns.load_dataset('tips')
#Q1. total_bill이 30 이상인 데이터만 선택하기
tips_data.loc[tips_data['total_bill']>=30]
#Q2. 성별('sex')을 기준으로 데이터 그룹화하여 팁(tip)의 평균 계산
group_by_sex = tips_data.groupby('sex')['tip'].mean()
group_by_sex
#Q3. 'day'와 'time'을 기준으로 데이터 그룹화하여 전체 지불 금액(total_bill)의 합 계산
group_by_dt = tips_data.groupby(['day','time'])['total_bill'].sum()
group_by_dt
#Q4. 'day' 열을 기준으로 각 요일별로 팁(tip)의 평균을 새로운 데이터프레임으로 만든 후, 이를 기존의 tips 데이터셋에 합쳐보자
avg_tip_per_day = tips_data.groupby('day')['tip'].mean().reset_index()
avg_tip_per_day.columns = ['day', 'avg_tip']

강의를 들을 때는 할만하다고 느꼈는데 문제를 보는 순간 SQL로 푸는 방법만 생각나고 파이썬으로 어떻게 불러올지 막막해졌다. SQL과 병행하면서 차이점을 명확하게 알고 파이썬도 바로바로 쓸 수 있도록 복습 철저히 해서 익혀야겠다.

profile
It's a, it's the Pleasure Shop

0개의 댓글