데이터를 분석하기 전, 총합, 중간 집계 값, 불필요한 카테고리 등을 제거해야 합니다. 이 작업은 데이터의 정확성과 분석 효율성을 높이기 위한 필수 과정입니다.
상품군별(1) 컬럼에서 "합계" 데이터를 제거합니다.
python
코드 복사
# '합계' 제외
result = result[result['상품군별(1)'] != '합계']
# 데이터 개수와 고유값 확인
result.shape
result['상품군별(1)'].unique()
!= '합계': "합계" 값이 포함된 행을 제거합니다.unique(): 컬럼의 고유값을 확인하여 "합계"가 제거되었는지 점검합니다.운영형태별(1) 컬럼에서 "계" 데이터를 제거합니다:
python
코드 복사
# '계' 제외
result = result[result['운영형태별(1)'] != '계']
# 데이터 확인
result['운영형태별(1)'].unique()
상품군별(2) 컬럼에서 "소계"를 포함하는 데이터만 남기고, 이후 해당 컬럼을 제거합니다:
python
코드 복사
# '소계' 데이터만 유지
result = result[result['상품군별(2)'] == '소계']
# 컬럼 삭제
result.drop('상품군별(2)', axis='columns', inplace=True)
== '소계': "소계" 값을 유지하고 나머지 데이터를 제거합니다.drop(): 불필요해진 상품군별(2) 컬럼을 삭제합니다.각 단계에서 데이터의 모양과 고유값을 확인하여 정리가 제대로 이루어졌는지 점검합니다:
python
코드 복사
result.shape
result['상품군별(1)'].unique()
result['운영형태별(1)'].unique()