12. 데이터 재구조화 5 - indexing

Ryan·2025년 1월 9일

SQL/Python 분석

목록 보기
16/94

12. 데이터 재구조화 5 - Indexing

불필요한 데이터 제거 및 컬럼 정리

데이터를 분석하기 전, 총합, 중간 집계 값, 불필요한 카테고리 등을 제거해야 합니다. 이 작업은 데이터의 정확성과 분석 효율성을 높이기 위한 필수 과정입니다.


1. 총합 데이터 제거

상품군별(1) 컬럼에서 "합계" 데이터를 제거합니다.

python
코드 복사
# '합계' 제외
result = result[result['상품군별(1)'] != '합계']

# 데이터 개수와 고유값 확인
result.shape
result['상품군별(1)'].unique()
  • != '합계': "합계" 값이 포함된 행을 제거합니다.
  • unique(): 컬럼의 고유값을 확인하여 "합계"가 제거되었는지 점검합니다.

2. 중간 집계 데이터 제거

운영형태별(1) 컬럼에서 "계" 데이터를 제거합니다:

python
코드 복사
# '계' 제외
result = result[result['운영형태별(1)'] != '계']

# 데이터 확인
result['운영형태별(1)'].unique()
  • "계"는 중간 집계 값으로, 세부 데이터를 분석하는 데 방해가 됩니다.

3. 불필요한 카테고리 제거

상품군별(2) 컬럼에서 "소계"를 포함하는 데이터만 남기고, 이후 해당 컬럼을 제거합니다:

python
코드 복사
# '소계' 데이터만 유지
result = result[result['상품군별(2)'] == '소계']

# 컬럼 삭제
result.drop('상품군별(2)', axis='columns', inplace=True)
  • == '소계': "소계" 값을 유지하고 나머지 데이터를 제거합니다.
  • drop(): 불필요해진 상품군별(2) 컬럼을 삭제합니다.

4. 결과 확인

각 단계에서 데이터의 모양과 고유값을 확인하여 정리가 제대로 이루어졌는지 점검합니다:

python
코드 복사
result.shape
result['상품군별(1)'].unique()
result['운영형태별(1)'].unique()

요약

  1. 총합 및 중간 집계 제거: "합계", "계"와 같은 데이터를 제거하여 세부 데이터만 남김.
  2. 불필요한 컬럼 정리: "소계"로 필터링한 후, 관련 컬럼 삭제.
  3. 결과 점검: 데이터 크기와 고유값을 확인하여 정리가 제대로 이루어졌는지 확인.

0개의 댓글