데이터셋 이란?
- 데이터셋은 분석이나 학습을 위해 모아둔 데이터의 집합이다.
- 데이터셋의 구성 예시
- 행(row): 각 행은 하나의 데이터 항목을 나타냅니다. 예를 들어, 한 사람의 정보나 한 거래 기록이 하나의 행이 됩니다.
- 열(column): 각 열은 데이터의 특정 속성을 나타냅니다. 예를 들어, 이름, 나이, 성별, 거래 금액 같은 속성을 담고 있습니다.
데이터 전처리의 필요성
- 데이터 전처리는 데이터를 분석하기 전, 분석 가능한 형태로 정리하는 과정입니다.
- 실제로 데이터는 깨끗한 상태로 수집되지 않는 경우가 많습니다. 따라서, 데이터를 수집한 후에 불필요한 정보 제거, 형식 정리 등을 거쳐야 합니다.
데이터 전처리가 중요한 이유
- 데이터 품질 향상: 잘 정리된 데이터는 분석 결과의 정확성을 높이고, 신뢰할 수 있는 인사이트를 도출하는 데 도움을 줍니다.
- 효율적인 분석 가능: 전처리된 데이터는 분석 시간을 단축시켜, 효율적으로 분석할 수 있게 합니다.
- 대시보드 활용 극대화: 정리된 데이터는 대시보드에서 정확한 시각화와 리포트를 제공할 수 있습니다.
데이터 전처리 과정
- 불필요한 열 제거
- 분석에 필요 없는 열, 중복된 열을 제거하여 데이터 간소화.
- 날짜 형식 통일
- 다양한 날짜 형식을 일관성 있게 정리하여 분석 및 비교가 가능하게 함.
- 카테고리 통합
- 너무 세분화된 카테고리를 통합해 분석이 용이하도록 데이터 정리.
- 결측값 처리
- 데이터에 누락된 값이 있을 경우, 제거하거나 평균/중앙값으로 채워넣어 분석에 영향을 미치지 않도록 함.
- 데이터 형식 변환
- 문자, 숫자, 날짜 등의 데이터 형식을 분석에 맞게 변환하여 계산 오류 방지.
- 이상치(Outliers) 확인 및 처리
- 데이터에서 비정상적으로 큰 값이나 작은 값을 찾아내고, 분석에 영향을 미치지 않도록 조정하거나 제거.
피벗 테이블이란?
피벗 테이블은 큰 데이터를 요약하여 특정한 기준에서 데이터를 분석하고 정리하는 도구입니다.
피벗 테이블의 기본 개념
- 큰 데이터를 요약한다
- 예를 들어, 매달 판매된 제품의 개별 거래가 수백 건이라면, 피벗 테이블로 각 제품의 월별 총판매량이나 제품별 판매 합계 등을 요약할 수 있습니다.
- 필요한 데이터만 모아서 본다
- 원본 데이터에서 필요한 부분만 모아서 특정 기준으로 보고 싶을 때 유용합니다.
- 기준(열)을 선택해 데이터를 정리한다
- 예를 들어, “제품별 매출”을 알고 싶다면, '제품'을 기준으로 정리해서 각 제품의 매출 합계만 보여주게 할 수 있습니다.
간단한 예시
원본 데이터가 이렇게 있다고 할게요:
| 제품 | 월 | 판매량 |
|---|
| A | 1월 | 100 |
| A | 2월 | 150 |
| B | 1월 | 200 |
| B | 2월 | 250 |
피벗 테이블로 제품별 총 판매량을 보고 싶다면, 이렇게 요약될 수 있습니다: