통계 2: 분석의 목표

ヒヒヒ·2025년 9월 19일

통계

목록 보기
2/13
post-thumbnail

🧐 데이터 분석의 목표

  • 데이터를 요약해서 보여줄 수 있음
  • 데이터를 설명(원인 파악)할 수 있음
  • 데이터를 바탕으로 미래를 예측할 수 있음

요약이란?

정의

  • 방대한 데이터를 대표값 또는 그래프로 단순화하여 주요한 정보만 추려내는 것

특징

  • 수백 개의 데이터를 보고 한눈에 파악하기 어려움 → 요약 필요
    • 대표값(평균, 중앙값, 최빈값 등)이나 그래프(막대그래프, 히스토그램)로 요약

예시

  • 시험 점수 100개를 전부 살피는 것보다, 평균을 보고 반의 대략적인 수준 파악 가능

🔍 설명이란?

정의

  • 데이터를 보고 단순히 “무슨 일이 일어났는가”가 아니라, “왜 그런 일이 일어났는가”를 찾는 것

특징

  • 내부 요인(내부 시스템, 직원 문제 등)과 외부 요인(시장, 경쟁사, 환경 변화 등)을 모두 고려해야 함

예시

  • 상황: 카페 매출 급락
    • 내부 요인: 직원 문제라고 잘못 판단 → 급여 삭감
    • 외부 요인: 옆 동네 무료 맥주 축제 영향 → 실제 원인

🔮 예측이란?

정의

  • 과거 데이터를 기반으로 확률적 패턴을 찾아 미래를 추정하는 것 (단, 100% 확신 불가)

예시

  • “나는 액션 영화를 싫어한다” → 앞으로도 액션 영화를 싫어할 가능성이 높다고 예측

📌 모집단과 표본

정의

  • 모집단(Population): 내가 알고 싶은 전체 집단 (예: 한 국가의 모든 성인)
  • 표본(Sample): 모집단에서 뽑은 일부 데이터 (예: 한 국가의 성인 100명)

특징

  • 전수조사: 모집단 전체를 조사 (현실적으로 불가능)
  • 표본조사: 일부만 조사 (시간·비용 절약, 대표성 중요)

예시

  • 여론조사: 유권자 1,000명을 표본으로 뽑아 전체 투표 결과 예측

⚠️ 오개념 방지

  • 표본은 모집단의 특성을 대표해야 함
  • 표본은 무작위로 뽑아야 함 → 편향 최소화
  • 대표성 없는 표본 = 잘못된 추론 위험

📌 데이터 유형

데이터의 성격에 따라 적절한 분석 방법과 사용할 그래프가 달라짐

수치형(양적) 데이터

  • 이산형: 셀 수 있고 끊어진 값
    • 주사위 눈: 1, 2, 3, 4, 5, 6
    • 하루 방문자 수: 0명, 18명, 1000명
  • 연속형: 구간 내 모든 값을 가짐
    • 키: 178.18cm, 149.003cm
    • 체류 시간: 13초 0018, 0.000001초

범주형(질적) 데이터

  • 종류로 구분되는 문자 데이터
    • 결제수단: 카드 / 현금 / 계좌이체
    • 통신사: SKT / LG / KT
  • 숫자가 아니므로 평균·분산 계산 불가 → 카테고리 빈도/비율로 요약

📌 데이터 유형별 시각화

  • 연속형 → 히스토그램 / 박스플롯
  • 범주형 → 막대그래프 / 원그래프

📌 요약에 사용되는 도구

숫자 더미를 요약하는 도구:

  • 도수분포표
  • 히스토그램
  • 대표값 (평균·중앙값·최빈값)

📊 도수분포표

정의

  • 숫자 데이터를 구간별로 나누고 빈도를 정리한 표

출처: 통계교육원


📊 히스토그램

분포란?

  • 데이터가 어떻게 퍼져 있는가??
    • 중심: 값들이 몰린 위치 (평균, 중앙값)
    • 흩어짐: 퍼짐 정도 (분산, 표준편차, IQR)
    • 모양:
      • 대칭/비대칭 (왜도)
      • 봉우리 개수 (첨도)
    • 특이값: 이상치 확인 가능

정의

  • 도수분포표를 시각화한 그래프

특징

  • 연속형 데이터에서만 사용
  • 연속형 데이터를 일정한 구간(bin)으로 나누고, 각 구간의 개수를 막대로 표현
    • bin(구간 크기): 카메라 줌의 원리
    • 너무 크면 → 디테일 소실
    • 너무 작으면 → 노이즈 발생
  • 적절한 구간 크기 설정 필요
    • k(구간의 크기) = 1 + 3.322 × log10​(n:데이터의 개수)
  • 이상치 존재 여부 파악 가능
  • 단, 평균·중앙값·표준편차와 함께 봐야 의미가 강해짐

무엇을 알 수 있을까?

  1. 집중구간: 값이 가장 많이 몰린 곳
  2. 분포 모양: 대칭/치우침(왜도)
  3. 꼬리: 이상치 여부 확인
  4. 봉우리 개수: 집단이 1개인지, 여러 집단인지 구분 가능

사용 이유

  • 평균만 보면 착시 발생 → 히스토그램으로 분포 파악

예시

  • 시험 점수 분포
  • 키·몸무게, 나이 분포
  • 매출·결제금액 확인

📌 변수란?

정의

  • 분석 대상의 특징을 나타내는 값 (머신러닝에서는 속성 또는 피처라고도 부름)

유형

  • 범주형: 성별, 날씨
  • 연속형: 키, 몸무게, 결제금액
  • 이산형: 주사위 눈, 방문자 수

🙇 마치며

요약

구분요약 키워드예시특징
범주형(문자)종류성별, 국적, 브랜드명, 지역숫자 계산 불가, 종류만 존재
이산형(수치)숫자 개수형제 수, 도서관 책 권수, 고객 수딱딱 떨어짐, 셀 수 있음
연속형(수치)연속 숫자키, 몸무게, 온도, 소득중간값 무한, 계산 가능

차트 시트

분석 범위범주형 데이터연속형 데이터
일변량막대그래프, 원그래프히스토그램, 박스플롯
이변량집단별 막대그래프, 모자이크 차트박스플롯(집단비교), 산점도, 선그래프
다변량버블차트, 히트맵

📌 퀴즈

화면을 드래그해서 정답 확인

카테고리 구분 (양적 vs 질적)

🌡️ 체온 (°C) → 정답: 양적

🚻 성별 (남/녀) → 정답: 질적

🛣️ 주행 거리 (Km) → 정답: 양적

🍎 브랜드 (애플/삼성) → 정답: 질적

0개의 댓글