🐼 데이터 분석과 Python: Pandas 데이터 전처리

Geondong Kim·4일 전

데이터분석과 파이썬

목록 보기

8/11

🐼 데이터 분석과 Python: Pandas 심화 (Part 3)

1. 데이터 전처리 (Data Preprocessing)

1.1 필요성

원시 데이터(Raw Data)는 분석에 바로 사용할 수 없는 경우가 많습니다 (정형화되지 않음).
결측치(Missing Values), 이상치(Outliers) 등이 존재할 수 있습니다.
값의 불일치: 예) '남'/'남자', '경북'/'경상북도' 등 통일되지 않은 값.
목적: 분석의 정확도 및 모델 성능 향상. (전처리가 전체 분석 과정의 70% 이상을 차지)
원칙: Garbage In, Garbage Out (쓰레기 데이터가 들어가면 쓰레기 결과가 나온다).

1.2 자료형 변환 (Type Casting)

데이터를 로드했을 때 숫자가 문자열로 인식되거나, 날짜가 객체(Object)로 인식되는 경우 올바른 형태로 변환해야 정확한 연산이 가능합니다.

astype(): 가장 기본적인 명시적 형변환 메서드입니다.

df.astype('int32') 또는 df.astype({'col1': 'int32'})

# 데이터프레임의 자료형 변환
# DataFrame.astype(dtype, copcy=None, errors='raise')

# 시리즈의 자료형 변환
# Series.astype(dtype, copy=None, erros='raise')

# 단일 컬럼 변환
df['col1'] = df['col1'].astype('int32')

# 딕셔너리를 이용한 다중 컬럼 변환
df = df.astype({'col1': 'int32', 'col2': 'float64'})

# 범주형 데이터로 변환 (메모리 절약 및 분석 효율성 증대)
df['category_col'] = df['category_col'].astype('category')

to_numeric, to_datetime, to_timedelta: 특정 타입으로 안전하게 변환하는 함수들.
- to_numeric: 문자열이 섞여 있을 때 errors='coerce' 옵션을 사용하면 변환 불가능한 값은 NaN으로 처리하여 안전하게 숫자로 바꿀 수 있습니다.
Tip: copy 파라미터는 향후 Copy-on-Write 방식으로 대체될 예정이므로 사용을 지양하는 것이 좋습니다.
convert_dtypes(): 가능한 가장 적절한 타입(예: nullable int, string)으로 자동 변환을 시도합니다. 최신 Pandas에서 권장하는 방식 중 하나입니다.

1.3 결측치 및 중복 처리 (Cleanming)

결측치 확인: df.isna() 또는 df.isnull()
결측치 삭제 (dropna):
- df.dropna(axis=0): 결측치가 있는 행 삭제.
- df.dropna(how='all'): 모든 값이 결측치인 경우만 삭제.
- df.dropna(thresh=N): 정상 데이터가 N개 이상이면 유지.
결측치 채우기 (fillna):
- df.fillna(0): 0으로 채움.
- df.fillna(df.mean()): 평균값으로 대체.
- 시계열 데이터: ffill()(앞의 값으로 채움), bfill()(뒤의 값으로 채움).
중복 제거:
- df.drop_duplicates(subset=['col1', 'col2'], keep='first'): 특정 컬럼 기준 중복 제거.

2. 데이터 그룹화 (Grouping): Split-Apply-Combine

데이터를 특정 기준에 따라 나누고(Split), 각 그룹에 연산을 적용하고(Apply), 결과를 다시 합치는(Combine) 강력한 과정입니다.

2.1 GroupBy 객체 생성 (`groupby()`)

# 데이터프레임 객체 생성
# DataFrame.groupby(by=None, axis=<no_default> , level=None, as_index=True, 
#                   sort=True, group_keys=True, observed=<no_default> , dropna=True)

grouped = df.groupby('Key_Column')
# 여러 컬럼 기준
grouped = df.groupby(['Key1', 'Key2'])

2.2 GroupBy의 첫 단계: Split (데이터 분할)

Split 단계는 데이터를 특정 기준(Key)에 따라 논리적으로 나누는 과정입니다. 이 단계에서 즉시 계산이 수행되는 것은 아니며, GroupBy 객체(중간체) 가 생성됩니다.

① 다양한 분할 기준 (`by` 파라미터)

Pandas는 매우 유연한 분할 기준을 제공합니다.

단일 컬럼: 가장 기본적인 형태입니다.

# 'School' 컬럼의 값(예: A고교, B고교)을 기준으로 나눔
grouped = df.groupby('School')

다중 컬럼: 여러 컬럼을 계층적으로 묶습니다.

# 'School'로 먼저 나누고, 그 안에서 'Grade'로 다시 나눔
grouped = df.groupby(['School', 'Grade'])

함수(Function) 또는 매핑(Dict): 인덱스(Index)에 함수를 적용하거나 딕셔너리로 그룹을 매핑할 수 있습니다.

# 인덱스가 날짜일 때, 연도(year)별로 그룹핑
df.groupby(lambda x: x.year)

# 딕셔너리로 인덱스 매핑 (a, b는 'First', c는 'Second' 그룹)
mapping = {'a': 'First', 'b': 'First', 'c': 'Second'}
df.groupby(mapping)

② Split된 결과 확인하기 (Inspection)

GroupBy 객체는 겉으로 보기엔 아무것도 안 보이지만, 내부적으로는 그룹 정보를 가지고 있습니다. 이를 확인하는 방법들입니다.

groups 속성: 각 그룹의 이름(Key)과 해당 데이터의 인덱스(Label)를 딕셔너리 형태로 보여줍니다.
```
print(grouped.groups)
# 결과: {'A고교': [0, 2, 5], 'B고교': [1, 3, 4]}
```
get_group() 메서드: 특정 그룹의 데이터만 DataFrame으로 추출해 봅니다. (디버깅할 때 유용)
```
# 'A고교' 그룹에 속한 데이터만 확인
a_school_data = grouped.get_group('A고교')
```

반복문(Iteration): for 문을 통해 (그룹명, 데이터프레임) 쌍을 순회할 수 있습니다.

for name, group_df in grouped:
    print(f"Group Name: {name}")
    print(group_df.head()) # 각 그룹의 데이터 출력

③ Split의 특징

Lazy Evaluation (지연 연산): groupby()만 실행했을 때는 실제 통계 연산(평균, 합계 등)을 수행하지 않습니다. sum(), mean() 같은 Apply 단계의 함수가 호출될 때 비로소 연산이 시작됩니다.
Nan 처리: 기본적으로 그룹 키(Key)에 NaN(결측치)이 포함되어 있으면, 해당 행은 그룹에서 제외됩니다. (옵션 dropna=False를 주면 NaN도 하나의 그룹으로 인정합니다.)

2.3 Apply 단계의 3가지 유형

① Aggregation (집계)

그룹별로 데이터를 요약하여 하나의 스칼라 값을 만듭니다. 결과 데이터의 크기가 줄어듭니다.

기본 함수: sum(), mean(), std(), min(), max(), size()

agg() 사용: 여러 함수를 동시에 적용하거나 컬럼별로 다른 함수를 적용할 때 유용합니다.

# 컬럼별 다른 연산 적용
df.groupby("kind").agg(
    min_height=("height", "min"),
    avg_weight=("weight", "mean")
)

② Transformation (변환)

그룹별로 값을 변경하거나 정규화 (cumsum, diff 등)를 수행하되, 결과 데이터의 크기가 원본과 동일하게 유지됩니다. 각 행에 그룹별 특성을 반영할 때 사용합니다.

예시: 그룹별 평균으로 결측치 채우기, 그룹 내 정규화(Z-score).

# 각 그룹의 표준편차로 나누기 (Standardization)
df.groupby('A').transform(lambda x: (x - x.mean()) / x.std())

# 각 그룹 내에서 누적 합 계산
grouped.cumsum()

③ Filtration (필터링)

조건을 만족하지 않는 그룹 전체를 삭제합니다. (loc 등을 이용한 행 단위 필터링과는 다릅니다.)

예시: 데이터 개수가 3개 미만인 그룹은 분석에서 제외.

# 그룹 내 데이터 개수(len)가 2보다 큰 그룹만 남김
df.groupby("B").filter(lambda x: len(x) > 2)

④ Apply (유연한 적용)

가장 일반적인 형태입니다. 임의의 함수를 적용할 수 있으며, 결과 형태가 유동적입니다. 다만, 속도가 느릴 수 있습니다.

# DataFrameGroupBy.apply(func, *args, include_groups=True, **kwargs)

Tip: 최신 Pandas에서는 include_groups=False를 지정하여 그룹핑 키가 결과에 중복 포함되는 것을 방지하는 것이 좋습니다.

2.4 Combine (결합): 결과를 다시 하나의 데이터 구조로 통합합니다.

3. 데이터 재구조화 (Reshaping)

데이터의 형태를 분석 목적에 맞게 변경하는 기능들입니다.

3.1 Pivot & Melt (Long & Wide)

pivot: 데이터의 특정 컬럼 값을 새로운 컬럼 헤더로 만들어 데이터를 요약/재배치합니다. 세로로 긴 데이터를 가로로 넓게 펼칩니다. (Long to Wide)
- 사용처: 요약표 생성, 시계열 데이터 정리.
- 주의: 중복된 인덱스/컬럼 쌍이 있으면 에러가 발생합니다. 이 경우 집계 기능이 포함된 pivot_table()을 사용해야 합니다.
```
# DataFrame.pivot(*, columns, index=<no_default>, values=<no_default>)

df.pivot(index='date', columns='variable', values='value')
```
melt: 여러 컬럼을 하나의 컬럼으로 녹여서 행으로 만듭니다. 가로로 넓은 데이터를 세로로 길게 녹입니다. 컴퓨터가 처리하기 좋은 형태(Tidy Data)로 바꿀 때 씁니다. (Wide to Long)
- id_vars: 기준이 될(유지할) 컬럼.
- value_vars: 녹여서 행으로 만들 컬럼.
```
# DataFrame.melt(id_vars=None, value_vars=None, var_name=None, 
#                value_name='value', col_level=None, ignore_index=True)
```

3.2 Stack & Unstack

stack: 컬럼(열) 레벨을 인덱스(행) 레벨로 압축합니다. (Columns $\to$ Index)
unstack: 인덱스(행) 레벨을 컬럼(열) 레벨로 펼칩니다. (Index $\to$ Columns)
- groupby 후 unstack()을 자주 사용합니다.

# DataFrame.stack(level=-1, dropna=<no_default>, sort=<no_default>, futures_tack=False)
# DataFrame.unstack(level=-1, fill_value=None, sort=True)

3.3 Explode

explode: 리스트나 배열 형태의 값을 가진 컬럼을 여러 행으로 분리합니다. (1행

\to

N행)

# DataFrame.explode(column, ignore_index=False)

# Before
# A  | B
# 1  | [a, b]

df.explode('B')

# After
# A | B
# 1 | a
# 1 | b

4. 데이터 병합 (Merge & Concat)

4.1 `merge` (SQL Join 방식)

두 DataFrame을 특정 키(Key)를 기준으로 병합합니다. SQL의 Join과 동일합니다.

# DataFrame.merge(right, how='inner', on=None, left_on=None, right_on=None, 
#                 left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'),
#                 copy=None, indicator=False, validate=None)

on: 기준이 되는 컬럼명. (두 DF의 컬럼명이 다르면 left_on, right_on 사용)
how:
- 'inner': 교집합 (두 데이터에 모두 있는 키만 남김). (기본값)
- 'outer': 합집합 (모든 키를 남기고, 빈 곳은 NaN).
- 'left': 왼쪽 데이터프레임의 키를 모두 유지.
- 'right': 오른쪽 데이터프레임의 키를 모두 유지.

4.2 `concat` (Concatenate, 물리적 결합)

두 개 이상의 DataFrame을 물리적으로 이어 붙입니다.

# DataFrame.concat(objs, *, axis=0, join='outer', ignore_index=False, keys=None, 
#                  levels=None, names=None, verify_integrity=False, sort=False, copy=None)

axis=0(기본값): 위아래로 붙이기 (행 추가).
- ignore_index=True: 기존 인덱스를 무시하고 새로 번호를 매기기.
axis=1: 좌우로 붙이기 (열 추가).
- 인덱스를 기준으로 매칭하여 붙입니다.

5. 상관 분석 (Correlation Analysis)

두 변수 간의 관계의 강도와 방향을 수치화하는 통계 기법입니다.

5.1 주요 개념

상관계수 ( $r$ ): -1과 1 사이의 값.
- $r = 1$ : 완벽한 양의 상관관계 (X 증가 시 Y도 증가).
- $r = -1$ : 완벽한 음의 상관관계 (X 증가 시 Y는 감소).
- $r = 0$ : 선형적인 관계가 없음.
주의사항:
- 인과 관계가 아님: A와 B가 같이 움직인다고 해서 A가 B의 원인인 것은 아닙니다.
- 이상치(Outlier) 민감성: 이상치가 있으면 상관계수가 왜곡될 수 있습니다.

5.2 상관계수 종류 (`method` 파라미터)

Pearson (피어슨): 기본값. 두 변수 간의 선형적 관계를 측정. 연속형 데이터에 적합.
Spearman (스피어만): 값의 순위(Rank)를 기반으로 관계 측정. 비선형 관계나 이상치가 있을 때 유용.
Kendall (켄달): 순위 기반. 표본이 작을 때 Spearman보다 더 신뢰할 수 있음.

5.2 `corr()` 메서드

Pearson (기본값): 선형적인 관계 측정.
Spearman / Kendall: 순위 기반 측정 (이상치 영향이 적음).

# DataFrame.corr(method='pearson', min_periods=1, numeric_only=False)

# 상관 계수 행렬 계산
corr_matrix = df.corr(numeric_only=True)

# 시각화 (Seaborn Heatmap)
import seaborn as sns
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')

5.3 시각화 (Heatmap)

상관 분석 결과는 seaborn.heatmap을 통해 시각화하면 관계를 한눈에 파악하기 좋습니다.

import seaborn as sns
import matplotlib.pyplot as plt

corr_matrix = df.corr(numeric_only=True) # 수치형 데이터만 계산
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.show()

5.4 선형 회귀 (Linear Regression)와의 차이

상관 분석: 두 변수가 얼마나 밀접하게 관련되어 있는지(관계의 강도)만 확인.
선형 회귀: 한 변수(독립변수)를 이용해 다른 변수(종속변수)를 예측(Prediction)하기 위한 수식( $y = ax + b$ )을 도출.

🔗 참고 자료 (References)

Geondong Kim

이전 포스트

🐼 데이터 분석과 Python: Pandas 기초

다음 포스트

🐼 데이터 분석과 Python: Pandas 데이터 전처리

데이터분석과 파이썬

🐼 데이터 분석과 Python: Pandas 심화 (Part 3)

1. 데이터 전처리 (Data Preprocessing)

1.1 필요성

1.2 자료형 변환 (Type Casting)

1.3 결측치 및 중복 처리 (Cleanming)

2. 데이터 그룹화 (Grouping): Split-Apply-Combine

2.1 GroupBy 객체 생성 (`groupby()`)

2.2 GroupBy의 첫 단계: Split (데이터 분할)

① 다양한 분할 기준 (`by` 파라미터)

② Split된 결과 확인하기 (Inspection)

③ Split의 특징

2.3 Apply 단계의 3가지 유형

① Aggregation (집계)

② Transformation (변환)

③ Filtration (필터링)

④ Apply (유연한 적용)

2.4 Combine (결합): 결과를 다시 하나의 데이터 구조로 통합합니다.

3. 데이터 재구조화 (Reshaping)

3.1 Pivot & Melt (Long & Wide)

3.2 Stack & Unstack

3.3 Explode

4. 데이터 병합 (Merge & Concat)

4.1 `merge` (SQL Join 방식)

4.2 `concat` (Concatenate, 물리적 결합)

5. 상관 분석 (Correlation Analysis)

5.1 주요 개념

5.2 상관계수 종류 (`method` 파라미터)

5.2 `corr()` 메서드

5.3 시각화 (Heatmap)

5.4 선형 회귀 (Linear Regression)와의 차이

🔗 참고 자료 (References)

🐼 데이터 분석과 Python: Pandas 기초

📊 데이터 분석과 Python: 데이터 분석 방법론 (CRISP-DM)

0개의 댓글

🐼 데이터 분석과 Python: Pandas 데이터 전처리

데이터분석과 파이썬

🐼 데이터 분석과 Python: Pandas 심화 (Part 3)

1. 데이터 전처리 (Data Preprocessing)

1.1 필요성

1.2 자료형 변환 (Type Casting)

1.3 결측치 및 중복 처리 (Cleanming)

2. 데이터 그룹화 (Grouping): Split-Apply-Combine

2.1 GroupBy 객체 생성 (groupby())

2.2 GroupBy의 첫 단계: Split (데이터 분할)

① 다양한 분할 기준 (by 파라미터)

② Split된 결과 확인하기 (Inspection)

③ Split의 특징

2.3 Apply 단계의 3가지 유형

① Aggregation (집계)

② Transformation (변환)

③ Filtration (필터링)

④ Apply (유연한 적용)

2.4 Combine (결합): 결과를 다시 하나의 데이터 구조로 통합합니다.

3. 데이터 재구조화 (Reshaping)

3.1 Pivot & Melt (Long & Wide)

3.2 Stack & Unstack

3.3 Explode

4. 데이터 병합 (Merge & Concat)

4.1 merge (SQL Join 방식)

4.2 concat (Concatenate, 물리적 결합)

5. 상관 분석 (Correlation Analysis)

5.1 주요 개념

5.2 상관계수 종류 (method 파라미터)

5.2 corr() 메서드

5.3 시각화 (Heatmap)

5.4 선형 회귀 (Linear Regression)와의 차이

🔗 참고 자료 (References)

🐼 데이터 분석과 Python: Pandas 기초

📊 데이터 분석과 Python: 데이터 분석 방법론 (CRISP-DM)

0개의 댓글

2.1 GroupBy 객체 생성 (`groupby()`)

① 다양한 분할 기준 (`by` 파라미터)

4.1 `merge` (SQL Join 방식)

4.2 `concat` (Concatenate, 물리적 결합)

5.2 상관계수 종류 (`method` 파라미터)

5.2 `corr()` 메서드