통계 3: 그래프의 종류

ヒヒヒ·2025년 9월 21일

통계

목록 보기
3/13
post-thumbnail

🧐 시각화의 중요성

  • 그래프는 단순 그림 ❌ → 가설을 뒷받침하고 주장을 설득하는 도구
  • 잘못된 그래프 선정 → 떨어지는 가독성 → 설득 실패
  • 분석가의 센스 = 문서 작성 능력 + 적절한 시각화 선택 능력

📌 주요 그래프

📊 막대그래프

정의
- 범주형 데이터의 빈도·비율을 막대로 표현

특징

  • 범주를 가지고 평균을 구할 수 없기에 카테고리별로 비교하는 막대 그래프 사용
  • 카테고리별 차이를 직관적으로 비교(상대적 순위 파악)
  • 카테고리별로 연속성이 없기에 막대 간 공백이 있음
  • 항목이 많으면 가독성이 떨어짐(필요한 항목 또는 상위 n개의 항목만 출력)

예시

  • 결제 수단별 결제 비율 확인(카드 vs 현금)
  • 혈액형 분포 확인(A형, B형, O형, AB형)

⭕️ 원그래프

정의

  • 하나의 변수(일변량)에 대한 값의 분포를 비율 표현

특징

  • 각 항목을 파이 조각으로 표시
  • 각 항목이 차지하는 비율을 직관적으로 보여줌
  • 항목이 적을 때(4~5개 이하) 효과적
  • 파이의 각도와 비율을 정확히 반영해야 함

예시

  • 스마트폰 시장 점유율 파악(애플 vs 삼성 vs 화웨이)
  • 고객 성비 확인(남 vs 여 vs 기타)

📦 박스플롯

정의

  • 연속형 데이터를 5가지 요약값 + 이상치 + IQR로 나타낸 그래프

특징

  • 중심(중앙값), 퍼짐(IQR), 대칭성, 이상치까지 한 번에 파악 가능
  • 집단 간 분포 차이를 확인할 때 유용
  • 표본 수가 적을 경우 왜곡이 발생될 가능성이 있음
  • 데이터의 안정성을 직관적으로 보여줌
    • 수염(fence)이 짧음: 데이터가 중앙값 근처에 몰림(안정적)
    • 수염(fence)이 긺: 데이터가 중앙값에서 멀리 떨어짐(변동성이 큼)

      수염 계산식
      IQR = Q3 - Q1
      Upper Fence = Q3 + (1.5 x IQR)
      Lower Fence = Q1 - (1.5 x IQR)
      1.5 대신 이상치를 엄격하게 검출할 때는 3, 느슨하게 할 때는 1을 설정하기도 함 (머신러닝의 미세 조정에서 사용)

예시

  • 반별 성적 분포(1학년 1반 vs 2반)
    두 반의 평균 점수가 75점으로 같다고 하더라도 값의 분포 차이에 따라 안정성이 달라짐
    • 1반: 점수 대부분 70~80점에 몰림(안정적)
    • 2반: 점수가 상위(80~100점)와 하위(50~70점)로 치우침(변동성 큼)

⚪ 산점도

정의

  • 두 변수의 관계를 점으로 표시하여 시각화한 그래프
    • x축: 공부시간, y축: 성적, 점 1개: 학생 1명

특징

  • 숫자만으로 변수 간의 관계를 파악하기 어렵기에 사용
  • 두변수의 관계만 보여줄 뿐 원인과 결과를 확인 할 수 없음
    • 광고비를 늘렸을 때 매출이 늘어날 경우 반드시 광고 떄문이라고 단정할 수 없음(우연 가능성 존재)
  • 상관관계 파악 가능
    • 양의 상관관계:두 변수가 함께 오름(공부시간이 오를수록 성적이 오름)
    • 음의 상관관계: 하나가 오르면 하나가 떨어짐(가격이 오르면 판매량이 떨어짐)
    • 선형: 두 변수 간의 관계가 직선 형태로 나타남
    • 비선형: 두 변수 간의 관계가 직선이 아닌 곡선이나 다른 형태로 나타남
  • 이상치 파악 가능
  • 일반적인 패턴과 예외적인 패턴을 함께 확인할 수 있음

예시

  • 광고비와 매출의 상관관계
    • 광고비를 많이 쓸수록 매출이 대체로 증가하지만, 특정 이벤트(예: 월드컵)로 광고비 없이도 매출이 오를 수 있음

📈 선그래프

정의

  • 시간에 따른 변화를 선으로 연결

특징

  • 특정 시점의 이상치 파악 가능
  • 주기에 따른 트랜드 및 계절성을 파악할 수 있음
    • 시간의 간격을 일정하게 유지하여 누락, 중복 방지
  • 단기 변동에 과도한 해석 주의(특정 이벤트나 외부 요인일 가능성 있음)
  • 이동평균선을 추가하여 추세를 안정적으로 파악할 수 있음

    추세: 시간에 따른 변화를 연속적으로 보여줌(시계열)

예시

  • 월별 매출 변화 확인
  • 일별 기온 변화 확인
  • DAU 변화 확인

🟩 히트맵

정의

  • 데이터를 색상으로 표현

특징

  • 세가지 이상의 변수를 표현할 수 있음(행, 열, 색상)
  • 크고 작은 값을 색상 차이로 쉽게 파악 가능
    • 패턴, 이상치, 집중된 구간을 쉽게 파악

예시

  • 월별·지역별 매출 패턴 확인
    • 여름철 가장 매출이 많은 지역 파악
  • 요일/시간 데이터의 패턴(피크타임) 분석에 자주 사용
    • 김밥천국의 피크타임을 파악해 브레이크 타임 정하기
  • 금융사기 모니터링 및 이상 패턴 탐지
    • 특정 시간대, 지역의 이상 발견 시 집중 모니터링

📌 그래프 선정 기준

1️⃣ 변수 개수

일변량(변수 1개)

데이터의 분포와 비율 확인

  • 범주형 → 막대그래프, 원그래프
  • 연속형 → 히스토그램, 박스 플롯

이변량(변수 2개)

두 변수간의 관계 확인

  • 범주형 vs 범주형 → 집단별 막대 그래프
  • 범주형 vs 연속형 → 박스플롯
  • 연속형 vs 연속형 → 산점도 그래프, 선그래프

다변량(변수 3개 이상)

여러 변수가 동시에 어떤 패턴이나 상호작용을 보이는지 확인

  • 버블차트 (산점도+색+크기)
  • 히트맵 (행·열·색상)

2️⃣ 데이터 유형

  • 범주형 → 막대, 원
  • 연속형 → 히스토, 박스, 선

3️⃣ 분석 목적

  • 분포 확인 → 히스토그램, 박스 플롯
  • 집단 비교 → 막대그래프, 박스 플롯
  • 관계 파악 → 산점도 그래프
  • 시간 추세 → 선 그래프
  • 패턴 탐지 → 히트맵

🚨 번외: 이상치 처리

이상치는 무조건 제거해야 할까?
분석 목적이나 세운 가설에 따라 이상치 유지 또는 제거 결정

[이상치 제거]

목적

  • 데이터의 전반적인 분포를 안정적으로 파악하거나, 노이즈로 인해 분석 결과가 왜곡되는 것을 방지할 때

예시

  • 통계 분석: 시험 성적 데이터를 분석 시, 이상치가 평균을 왜곡하기에 제거하여 전체적인 성적 분포를 확인

효과

  • 데이터의 노이즈를 줄여 안정적인 분포를 파악하고, 분석 결과의 신뢰도를 높임

[이상치 유지]

목적

  • 이상치 자체가 분석의 핵심이거나, 비정상적인 현상을 탐지하는 데 중요한 정보를 제공할 때

예시

  • 금융 사기 탐지: 신용카드 거래 데이터에서 비정상적으로 큰 금액의 거래는 사기일 가능성이 있으므로, 제거하지 않고 패턴 분석의 핵심 대상으로 유지
  • 의료 데이터 분석: 환자의 혈압 데이터에서 극단적인 값은 고혈압 위기 등 건강 이상을 나타낼 수 있으므로 유지

효과

  • 이상치를 통해 비정상적인 사건이나 중요한 패턴을 발견하고, 도메인별 문제 해결에 기여

👉 이상치는 상황에 따라 문제 데이터일 수도, 핵심 신호일 수도 있음

0개의 댓글