통계 기초(1) - Chart, 대표값

이상해씨·2021년 10월 19일
0

통계 기초

목록 보기
1/10

◾시각화 도구

1. Pie Chart

  • Pie chart of populations of English native speakers
  • 도수(frequency) : 각 그룹이 담고 있는 항목의 수
  • 비율을 서로 비교하고자 할 때 유용
  • 서로 비슷한 경우 각 항목을 비교하기 쉽지않다.
  • PIE Chart는 항목별 비율의 차이를 보여준다

2. Bar Chart

  • 수직 막대 그래프
    • 막대 그래프 각각의 막대가 하나의 범주를 나타낸다.
    • 범주를 수평축에 표시, 도수나 퍼센트 값을 수직에 표시
  • 수평 막대 그래프
    • 막대 그래프 각각의 막대가 하나의 범주를 나타낸다.
    • 범주를 수직축에 표시, 도수나 퍼센트 값을 수평축에 표시
    • 수직 그래프가 일반적이지만, 범주의 종류가 많은 경우 수직막대 그래프가 효율적
  • 분할 막대 그래프, 누적 막대 그래프 등의 종류가 더 있다.

3. 히스토그램

  • 아래의 범위를 가진 항목 데이터를 효율적으로 시각화할 방법은? 히스토그램
    ScoreFrequency
    0-1995
    200-39929
    400-59956
    600-79917
    800-9993
  • arrival per minute
    • 수직 막대 그래프는 범주가 하나로 정해져있고, 히스토그램은 범위로 주어진다.
    • 범위가 (a ~ b)로 주어지면 b는 포함하지 않는다.
    • 범위가 일정하지 않다면
      • 막대의 면적은 그룹의 도수 : Area of bar = Frequency of group
      • Area = frequency, Height of bar = Frequency / Width of bar
      • 높이를 구하여 높이를 기준으로 히스토그램을 그린다.

◾대표값

1. 평균

  • 일반화된 합계 : Sum = x1 + x2 + ... + x(n-1) + xn
  • Summation기호 (sigma)
    • x=x1+x2+...+x(n1)+xn\sum x = x_1 + x_2 + ... + x_(n-1) + x_n
  • 평균(mean) : 데이터를 표현하는 가장 간단한 값, 뮤라고 읽는다.
    • μ(mean)=xn\mu(mean) = {\sum x \over n}

2. 중앙값

  • 평균의 한계 : 이상치(Outlier)가 있다면 평균은 왜곡된다.
  • 편향된 데이터(Skewed data) : 이상치가 있는 데이터
    • 오른쪽으로 편향된 데이터 : Skewed to the right
    • 왼쪽으로 편향된 데이터 : Skewed to the left
  • 좌우 대칭 데이터(Symmetric data)
  • 중앙값(중간값, median) : 데이터를 크기순으로 정렬한 뒤 가운데의 수를 찾는다.
    • 데이터가 짝수이면 양쪽 수의 평균을 구한다.
    • 데이터가 홀수이면 해당하는 위치의 수를 구한다.
  • 중앙값과 평균값의 관계
    • median < mean : Skewed to the right
    • median > mean : Skewed to the left

3. 최빈값

  • 중앙값의 한계 : 데이터가 특정 범위에 모여있는 경우 평균, 중앙값 왜곡 가능성이 있다.

    • [1, 1, 1, 2, 2, 2, 2, 3, 3, 31, 31, 32, 32, 32, 32, 33, 33, 33]
    • 평균값 17, 중앙값 17
    • 2를 추가하면 중앙값 3
    • 31을 추가하면 중앙값 31
  • 데이터를 도수분포표로 정리하면 확인할 수 있다.

    age123313233
    frequency342243
    • 최빈값(mode) : 가장 많이 관측되는 수로 위의 도수 분포표에서는 2, 32
profile
후라이드 치킨

0개의 댓글