데이터과학_3_1

김경민·2024년 9월 28일

3학년 2학기

목록 보기
7/29
post-thumbnail

📌7. 양적자료의 정리

통계학 중간고사 성적
양적자료의 경우는 연속적인 자료이므로 계급을 나누어 정리한다.


  • 양적자료의 정리 - 통그라미

  • 양적자료의 정리 - 히스토그램

  • 양적자료의 정리 - 상자 그램


  • ex) 2017년 프로야구 타율 상위 20위 선수들의 희생플라이 개수

📌8. 대푯값

대푯값으로 정리하기
중심을 나타내는 특성치(central tendency)

  • 평균
    산술평균
    기하평균
    가중평균

  • 중앙값

  • 최빈값


🎯 평균

산술평균
가장 많이 사용되는 대푯값 𝑋 ̅=1/𝑛 Σ𝑋
극단적인 값에 영향을 많이 받는다.

기하평균
물가상승률, 실업률과 같은 비율 자료의 평균
CAGR(Compound Annual Growth Rate) 연평균성장률
예) 최근 3년간 임금 상승률이 6%, 4%, 5%였다면 연평균은?

💻엑셀(CAGRCompound Annual Growth Rate연편균 성장률)


🎯 중앙값

  • 자료를 크기 순으로 나열하였을 때 가운데 위치한 값

    • 자료의 개수가 홀수일 때, 가운데 1개의 값: 32

      		15, 30, 32, 32, 90
    • 자료의 개수가 짝수일 때, 가운데 2개의 평균 = 33

      		15, 30, 32, 34, 42, 90
  • 비대칭인 경우에 많이 사용

  • 극단적인 값에 영향을 많이 받지 않음

🎯 최빈값

  • 자료중 빈도수가 가장 큰 값

  • 운동화, 구두, 의상 등 규격화된 제품의 규격

  • 극단적인 값에 영향을 많이 받지 않음

  • 최빈값은 없을 수도 있고, 2개 이상일 수도 있다.

    • 최빈값: 30

      		30, 30, 30, 32, 34 
    • 최빈값: 15, 30

      		15, 15, 30, 30, 34
    • 최빈값: 없음

      		15, 15, 30, 30, 34, 34

📌9. 산포도

산포도(散布度): 자료의 퍼짐 정도

  • 범위
  • 사분위수 범위
  • 분산 및 표준편차

🎯 1) 범위

  • 범위 = 최댓값 - 최솟값
  • 가장 간단한 방법이지만 자료 전체의 정보를 주기에는 불충분

🎯 2) 사분위수 범위(IQR)

  • 사분위수 (quartile)
    • 자료를 크기 순으로 나열하였을 때, 25%씩 나누는 경계값
    • Q1: 25%
    • Q2: 50% (중앙값)
    • Q3: 75%
  • 사분위수 범위(InterQuartile Range) 𝐼𝑄𝑅=𝑄_3−𝑄_1

상자 그림(box plot)

𝑄_1−1.5×𝐼𝑄𝑅 보다 작거나, 𝑄_3+1.5×𝐼𝑄𝑅 보다 큰 값을 이상점(outlier)으로 판정 - John Tukey

백분위수 (percentile)

  • 백분위 점수와 같은 것
  • 전체 자료를 1%씩 단위로 나누는 경계값
    10분위수(decitile)
  • 전체 자료를 10%씩 단위로 나누는 경계값
profile
무지(無知)

0개의 댓글