3. 데이터셋의 재구조화가 필요한 이유

Ryan·2025년 1월 9일

SQL/Python 분석

목록 보기

8/94

3. 데이터셋의 재구조화가 필요한 이유

집계된 형태의 데이터는 분석에 적합하지 않습니다. 이를 해결하기 위해 데이터를 재구조화해야 합니다.

문제점: 집계가 완료된 데이터

현재 데이터는 이미 총합 및 중간 집계값이 포함된 형태로 제공됩니다.
이러한 형태의 데이터는 세부적인 분석이나 유연한 시각화 작업에 제약이 있습니다.

해결 방안: 재구조화 메서드 활용

pd.melt() 함수

집계된 형태의 데이터를 다시 풀어서 행(row) 기반의 데이터로 변환합니다.
각 데이터 항목을 긴 형식(long format)으로 재구조화합니다.

python
코드 복사
df.melt(
    id_vars=None,          # 유지할 컬럼
    value_vars=None,       # 변환할 컬럼
    var_name=None,         # 변환 후 생성되는 컬럼 이름
    value_name='value'     # 변환 후 생성되는 값 컬럼의 이름
)

pd.pivot_table() 함수

변환된 데이터를 다시 피벗 테이블 형식으로 재구조화합니다.
이를 통해 원하는 기준에 따라 데이터를 집계 및 요약할 수 있습니다.

python
코드 복사
pd.pivot_table(
    data=df,               # 원본 데이터프레임
    values=None,           # 집계할 값
    index=None,            # 집계 기준(행)
    columns=None,          # 집계 기준(열)
    aggfunc='mean'         # 집계 방식(예: 평균)
)