데이터셋

유성·2024년 11월 3일

데이터분석

목록 보기
3/5

데이터셋 이란?

  • 데이터셋은 분석이나 학습을 위해 모아둔 데이터의 집합이다.
  • 데이터셋의 구성 예시
    • 행(row): 각 행은 하나의 데이터 항목을 나타냅니다. 예를 들어, 한 사람의 정보나 한 거래 기록이 하나의 행이 됩니다.
    • 열(column): 각 열은 데이터의 특정 속성을 나타냅니다. 예를 들어, 이름, 나이, 성별, 거래 금액 같은 속성을 담고 있습니다.

데이터 전처리의 필요성

  • 데이터 전처리는 데이터를 분석하기 전, 분석 가능한 형태로 정리하는 과정입니다.
  • 실제로 데이터는 깨끗한 상태로 수집되지 않는 경우가 많습니다. 따라서, 데이터를 수집한 후에 불필요한 정보 제거, 형식 정리 등을 거쳐야 합니다.

데이터 전처리가 중요한 이유

  • 데이터 품질 향상: 잘 정리된 데이터는 분석 결과의 정확성을 높이고, 신뢰할 수 있는 인사이트를 도출하는 데 도움을 줍니다.
  • 효율적인 분석 가능: 전처리된 데이터는 분석 시간을 단축시켜, 효율적으로 분석할 수 있게 합니다.
  • 대시보드 활용 극대화: 정리된 데이터는 대시보드에서 정확한 시각화와 리포트를 제공할 수 있습니다.

데이터 전처리 과정

  1. 불필요한 열 제거
    • 분석에 필요 없는 열, 중복된 열을 제거하여 데이터 간소화.
  2. 날짜 형식 통일
    • 다양한 날짜 형식을 일관성 있게 정리하여 분석 및 비교가 가능하게 함.
  3. 카테고리 통합
    • 너무 세분화된 카테고리를 통합해 분석이 용이하도록 데이터 정리.
  4. 결측값 처리
    • 데이터에 누락된 값이 있을 경우, 제거하거나 평균/중앙값으로 채워넣어 분석에 영향을 미치지 않도록 함.
  5. 데이터 형식 변환
    • 문자, 숫자, 날짜 등의 데이터 형식을 분석에 맞게 변환하여 계산 오류 방지.
  6. 이상치(Outliers) 확인 및 처리
    • 데이터에서 비정상적으로 큰 값이나 작은 값을 찾아내고, 분석에 영향을 미치지 않도록 조정하거나 제거.

피벗 테이블이란?

피벗 테이블은 큰 데이터를 요약하여 특정한 기준에서 데이터를 분석하고 정리하는 도구입니다.

피벗 테이블의 기본 개념

  1. 큰 데이터를 요약한다
    • 예를 들어, 매달 판매된 제품의 개별 거래가 수백 건이라면, 피벗 테이블로 각 제품의 월별 총판매량이나 제품별 판매 합계 등을 요약할 수 있습니다.
  2. 필요한 데이터만 모아서 본다
    • 원본 데이터에서 필요한 부분만 모아서 특정 기준으로 보고 싶을 때 유용합니다.
  3. 기준(열)을 선택해 데이터를 정리한다
    • 예를 들어, “제품별 매출”을 알고 싶다면, '제품'을 기준으로 정리해서 각 제품의 매출 합계만 보여주게 할 수 있습니다.

간단한 예시

원본 데이터가 이렇게 있다고 할게요:

제품판매량
A1월100
A2월150
B1월200
B2월250

피벗 테이블로 제품별 총 판매량을 보고 싶다면, 이렇게 요약될 수 있습니다:

제품총 판매량
A250
B450
profile
컴공

0개의 댓글