12. 데이터 재구조화 5 - indexing

Ryan·2025년 1월 9일

SQL/Python 분석

목록 보기

16/94

데이터를 분석하기 전, 총합, 중간 집계 값, 불필요한 카테고리 등을 제거해야 합니다. 이 작업은 데이터의 정확성과 분석 효율성을 높이기 위한 필수 과정입니다.

상품군별(1) 컬럼에서 "합계" 데이터를 제거합니다.

python
코드 복사
# '합계' 제외
result = result[result['상품군별(1)'] != '합계']

# 데이터 개수와 고유값 확인
result.shape
result['상품군별(1)'].unique()

운영형태별(1) 컬럼에서 "계" 데이터를 제거합니다:

python
코드 복사
# '계' 제외
result = result[result['운영형태별(1)'] != '계']

# 데이터 확인
result['운영형태별(1)'].unique()

상품군별(2) 컬럼에서 "소계"를 포함하는 데이터만 남기고, 이후 해당 컬럼을 제거합니다:

python
코드 복사
# '소계' 데이터만 유지
result = result[result['상품군별(2)'] == '소계']

# 컬럼 삭제
result.drop('상품군별(2)', axis='columns', inplace=True)

각 단계에서 데이터의 모양과 고유값을 확인하여 정리가 제대로 이루어졌는지 점검합니다:

python
코드 복사
result.shape
result['상품군별(1)'].unique()
result['운영형태별(1)'].unique()