ryusung0714.log

ryusung0714.log

데이터셋

유성·2024년 11월 3일

데이터분석

목록 보기

3/5

데이터셋 이란?

데이터셋은 분석이나 학습을 위해 모아둔 데이터의 집합이다.
데이터셋의 구성 예시
- 행(row): 각 행은 하나의 데이터 항목을 나타냅니다. 예를 들어, 한 사람의 정보나 한 거래 기록이 하나의 행이 됩니다.
- 열(column): 각 열은 데이터의 특정 속성을 나타냅니다. 예를 들어, 이름, 나이, 성별, 거래 금액 같은 속성을 담고 있습니다.

데이터 전처리의 필요성

데이터 전처리는 데이터를 분석하기 전, 분석 가능한 형태로 정리하는 과정입니다.
실제로 데이터는 깨끗한 상태로 수집되지 않는 경우가 많습니다. 따라서, 데이터를 수집한 후에 불필요한 정보 제거, 형식 정리 등을 거쳐야 합니다.

데이터 전처리가 중요한 이유

데이터 품질 향상: 잘 정리된 데이터는 분석 결과의 정확성을 높이고, 신뢰할 수 있는 인사이트를 도출하는 데 도움을 줍니다.
효율적인 분석 가능: 전처리된 데이터는 분석 시간을 단축시켜, 효율적으로 분석할 수 있게 합니다.
대시보드 활용 극대화: 정리된 데이터는 대시보드에서 정확한 시각화와 리포트를 제공할 수 있습니다.

데이터 전처리 과정

불필요한 열 제거
- 분석에 필요 없는 열, 중복된 열을 제거하여 데이터 간소화.
날짜 형식 통일
- 다양한 날짜 형식을 일관성 있게 정리하여 분석 및 비교가 가능하게 함.
카테고리 통합
- 너무 세분화된 카테고리를 통합해 분석이 용이하도록 데이터 정리.
결측값 처리
- 데이터에 누락된 값이 있을 경우, 제거하거나 평균/중앙값으로 채워넣어 분석에 영향을 미치지 않도록 함.
데이터 형식 변환
- 문자, 숫자, 날짜 등의 데이터 형식을 분석에 맞게 변환하여 계산 오류 방지.
이상치(Outliers) 확인 및 처리
- 데이터에서 비정상적으로 큰 값이나 작은 값을 찾아내고, 분석에 영향을 미치지 않도록 조정하거나 제거.

피벗 테이블이란?

피벗 테이블은 큰 데이터를 요약하여 특정한 기준에서 데이터를 분석하고 정리하는 도구입니다.

피벗 테이블의 기본 개념

큰 데이터를 요약한다
- 예를 들어, 매달 판매된 제품의 개별 거래가 수백 건이라면, 피벗 테이블로 각 제품의 월별 총판매량이나 제품별 판매 합계 등을 요약할 수 있습니다.
필요한 데이터만 모아서 본다
- 원본 데이터에서 필요한 부분만 모아서 특정 기준으로 보고 싶을 때 유용합니다.
기준(열)을 선택해 데이터를 정리한다
- 예를 들어, “제품별 매출”을 알고 싶다면, '제품'을 기준으로 정리해서 각 제품의 매출 합계만 보여주게 할 수 있습니다.

간단한 예시

원본 데이터가 이렇게 있다고 할게요:

제품	월	판매량
A	1월	100
A	2월	150
B	1월	200
B	2월	250

피벗 테이블로 제품별 총 판매량을 보고 싶다면, 이렇게 요약될 수 있습니다:

제품	총 판매량
A	250
B	450

컴공

이전 포스트

BI

다음 포스트

파이썬의 Pandas

0개의 댓글