🧐 데이터 분석의 목표
- 데이터를 요약해서 보여줄 수 있음
- 데이터를 설명(원인 파악)할 수 있음
- 데이터를 바탕으로 미래를 예측할 수 있음
✨ 요약이란?
정의
- 방대한 데이터를 대표값 또는 그래프로 단순화하여 주요한 정보만 추려내는 것
특징
- 수백 개의 데이터를 보고 한눈에 파악하기 어려움 → 요약 필요
- 대표값(평균, 중앙값, 최빈값 등)이나 그래프(막대그래프, 히스토그램)로 요약
예시
- 시험 점수 100개를 전부 살피는 것보다, 평균을 보고 반의 대략적인 수준 파악 가능
🔍 설명이란?
정의
- 데이터를 보고 단순히 “무슨 일이 일어났는가”가 아니라, “왜 그런 일이 일어났는가”를 찾는 것
특징
- 내부 요인(내부 시스템, 직원 문제 등)과 외부 요인(시장, 경쟁사, 환경 변화 등)을 모두 고려해야 함
예시
- 상황: 카페 매출 급락
- 내부 요인: 직원 문제라고 잘못 판단 → 급여 삭감
- 외부 요인: 옆 동네 무료 맥주 축제 영향 → 실제 원인
🔮 예측이란?
정의
- 과거 데이터를 기반으로 확률적 패턴을 찾아 미래를 추정하는 것 (단, 100% 확신 불가)
예시
- “나는 액션 영화를 싫어한다” → 앞으로도 액션 영화를 싫어할 가능성이 높다고 예측
📌 모집단과 표본
정의
- 모집단(Population): 내가 알고 싶은 전체 집단 (예: 한 국가의 모든 성인)
- 표본(Sample): 모집단에서 뽑은 일부 데이터 (예: 한 국가의 성인 100명)
특징
- 전수조사: 모집단 전체를 조사 (현실적으로 불가능)
- 표본조사: 일부만 조사 (시간·비용 절약, 대표성 중요)
예시
- 여론조사: 유권자 1,000명을 표본으로 뽑아 전체 투표 결과 예측
⚠️ 오개념 방지
- 표본은 모집단의 특성을 대표해야 함
- 표본은 무작위로 뽑아야 함 → 편향 최소화
- 대표성 없는 표본 = 잘못된 추론 위험
📌 데이터 유형
데이터의 성격에 따라 적절한 분석 방법과 사용할 그래프가 달라짐
수치형(양적) 데이터
- 이산형: 셀 수 있고 끊어진 값
- 주사위 눈: 1, 2, 3, 4, 5, 6
- 하루 방문자 수: 0명, 18명, 1000명
- 연속형: 구간 내 모든 값을 가짐
- 키: 178.18cm, 149.003cm
- 체류 시간: 13초 0018, 0.000001초
범주형(질적) 데이터
- 종류로 구분되는 문자 데이터
- 결제수단: 카드 / 현금 / 계좌이체
- 통신사: SKT / LG / KT
- 숫자가 아니므로 평균·분산 계산 불가 → 카테고리 빈도/비율로 요약
📌 데이터 유형별 시각화
- 연속형 → 히스토그램 / 박스플롯
- 범주형 → 막대그래프 / 원그래프
📌 요약에 사용되는 도구
숫자 더미를 요약하는 도구:
- 도수분포표
- 히스토그램
- 대표값 (평균·중앙값·최빈값)
📊 도수분포표
정의
- 숫자 데이터를 구간별로 나누고 빈도를 정리한 표
출처: 통계교육원
📊 히스토그램
분포란?
- 데이터가 어떻게 퍼져 있는가??
- 중심: 값들이 몰린 위치 (평균, 중앙값)
- 흩어짐: 퍼짐 정도 (분산, 표준편차, IQR)
- 모양:
- 특이값: 이상치 확인 가능
정의
특징
- 연속형 데이터에서만 사용
- 연속형 데이터를 일정한 구간(bin)으로 나누고, 각 구간의 개수를 막대로 표현
- bin(구간 크기): 카메라 줌의 원리
- 너무 크면 → 디테일 소실
- 너무 작으면 → 노이즈 발생
- 적절한 구간 크기 설정 필요
- k(구간의 크기) = 1 + 3.322 × log10(n:데이터의 개수)
- 이상치 존재 여부 파악 가능
- 단, 평균·중앙값·표준편차와 함께 봐야 의미가 강해짐
무엇을 알 수 있을까?
- 집중구간: 값이 가장 많이 몰린 곳
- 분포 모양: 대칭/치우침(왜도)
- 꼬리: 이상치 여부 확인
- 봉우리 개수: 집단이 1개인지, 여러 집단인지 구분 가능
사용 이유
- 평균만 보면 착시 발생 → 히스토그램으로 분포 파악
예시
- 시험 점수 분포
- 키·몸무게, 나이 분포
- 매출·결제금액 확인
📌 변수란?
정의
- 분석 대상의 특징을 나타내는 값 (머신러닝에서는 속성 또는 피처라고도 부름)
유형
- 범주형: 성별, 날씨
- 연속형: 키, 몸무게, 결제금액
- 이산형: 주사위 눈, 방문자 수
🙇 마치며
요약
| 구분 | 요약 키워드 | 예시 | 특징 |
|---|
| 범주형(문자) | 종류 | 성별, 국적, 브랜드명, 지역 | 숫자 계산 불가, 종류만 존재 |
| 이산형(수치) | 숫자 개수 | 형제 수, 도서관 책 권수, 고객 수 | 딱딱 떨어짐, 셀 수 있음 |
| 연속형(수치) | 연속 숫자 | 키, 몸무게, 온도, 소득 | 중간값 무한, 계산 가능 |
차트 시트
| 분석 범위 | 범주형 데이터 | 연속형 데이터 |
|---|
| 일변량 | 막대그래프, 원그래프 | 히스토그램, 박스플롯 |
| 이변량 | 집단별 막대그래프, 모자이크 차트 | 박스플롯(집단비교), 산점도, 선그래프 |
| 다변량 | — | 버블차트, 히트맵 |
📌 퀴즈
화면을 드래그해서 정답 확인
카테고리 구분 (양적 vs 질적)
🌡️ 체온 (°C) → 정답: 양적
🚻 성별 (남/녀) → 정답: 질적
🛣️ 주행 거리 (Km) → 정답: 양적
🍎 브랜드 (애플/삼성) → 정답: 질적