표,그림을 이용한 자료 요약

YongUk·2022년 9월 18일
0

Statistics

목록 보기
2/15
post-thumbnail

자료의 형태


  • 수치 자료 (양적 자료) : 관측되는 값이 수치로 측정되는 자료
    • 연속형 자료 : 연속적인 값을 가지는 자료 / ex) 키, 몸무게
    • 이산형 자료 : 이산적인 값을 가지는 자료 / ex) 주사위, 사람 수

연속형자료 VS 이산형자료

키와 몸무게도 180.1 180.2 처럼 이산적을 값을 가지지 않냐는 질문이 생길수 있다
실제로 우리 키는 180.1이 아닌 180.1212…일 것이다. 하지만 이런것을 구하는 것을 현실의 벽에 부딪힌다 따라서 본질적으로 구간 내의 모든 값을 가질 수 있는 키, 몸무게 등이 연속형에 속한다. 주사위를 생각해보면 1,2 는 가질 수 있지만 1.5는 절대 나올 수 없다라고 이해하면된다. 쉽게 생각해서 소수 = 연속형자료 , 정수 = 이산형자료 라고 생각해도 큰 어려움이 없다

  • 범주형 자료 (질적 자료) : 몇가지 범주로 나누어진 자료
    • 순위형 자료 : 순서 or 순위가 없는 범주형 자료 / ex) 혈액형, 성별, 지역
    • 명목형 자료 : 순서가 있는 범주형 자료 / ex) 등급, 평점

자료를 수집하는 과정에서 자료의 형태는 언제든 변할 수 있다
ex) 사람의 나이 구하기
1. 당신은 몇살 입니까 (주간식) →수치자료/이산형 자료
2. 당신은 몇살 입니까 (객관식) (1) 0-20 (2) 21-30 (3) 31-40 …. → 범주형자료/순위형 자료

수치형 자료는 숫자로 표현되고 범주형 자료는 문자로 표현된다?
ex) 성별이 1(남), 0(여)으로 표현될경우 숫자이어도 범주형 자료이다

범주형 자료의 요약


도수분포표


  • 도수 : 각 범주에 속하는 관측값의 개수
  • 상대도수 : 도수의 자료를 전체 개수로 나눈 비율
  • 도수분포표 : 범주와 그에 대응하는 도수와 상대도수를 나열한 표
범주도수상대도수
10.5
10.5
합계21.0

원형 그래프 (Pie chart)


  • 원을 상대도수에 비례하여 중심각을 나누어 파이 조각처럼 나타낸 것
  • 장점 : 각 범주가 전체에서 차지하는 비율을 파악하기 쉬움
  • 단점 : 각 범주간의 도수를 비교하는 것은 어려움 / 범주가의 수가 많은 경우 그리기 어려움

막대 그래프


  • 각 범주에서 도수의 크기를 막대의 높이로 나타낸 것
  • 장점 : 각 범주 간 도수를 비교하기 쉬움
  • 단점 : 각 범주가 전체에서 차지하는 비율을 파악하기 어려움

파레토그림 (Pareto diagram)


  • 막대그래프의 한 종류
  • 상대 도수의 크기가 큰 범주를 순서로 왼쪽에서 오른쪽으로 막대그래프를 배열
  • 누적 상대도수를 각 범주의 막대위 중앙에 표시하고 그 점들을 연결
  • 장점 : 어떤 범주가 중요한 범주인지 쉽게 파악이 가능함
  • 단점 : 순위형 자료에는 유용하지 않음

파레토 법칙 : 결과의 80%가 20%의 원인에서 발생

회사정책이나 다양한 문제에서 파레토그림을 이용하여 80%에 영향을 미치는 20%의 원인을 찾아내 집중할수 있도록 한다. 따라서 80%의 사소한 문제는 제쳐두고 20%의 중요한 문제에만 몰두할 수 있도록한다. 핵심 소수와 사소한 다수 이론이라고도 한다.

롱테일 법칙 : 80%의 평범한 다수가 20%의 특별한 소수보다 더 큰 역할을 한다는 이론

파레토 법칙과는 상반되는 이론으로 IT시장이 발달함에 따라 눈에 보이지 않는 80%의 평범한 다수들이 20%의 인재보다 더 많은 결과를 창출한다라는 이론이다.
ex) 대표적인 예시로 아마존의 온라인 매장이 생기며 그동안 주목받지 못하였던 도서들이 전체 매출의 절반이상을 책임지고 있다.

연속형 자료의 요약


점도표


  • 수평선을 긋고 눈금을 표시하여 각 관측값에 해당하는 위치에 점을 찍어 표시
  • 이미 점이 표시되어있으면 그 점 위에 다른 점을 표시
  • 장점 : 자료의 분포 특징을 쉽게 파악할 수 있음
  • 단점 : 자료의수가 많으면 적절하지 않은(20-25개가 적당)

도수 분포표


  1. 자료의 범위(최대-최소)를 구함
  2. 계급구간의 폭을 나눔 : 5-15개가 되도록 자료의 범위를 나눔
    • 계급의 수가 너무 적으면 자료가 너무 간략하게 요약되어 많은 정보를 잃어 버림
    • 계급의 수가 너무 크면 각 계급의 경향을 파악하기 어려움
    • 따라서 적당히 계급의 구간의 폭을 구해야함
  3. 계급구간 : 관측값이 계급의 경계에 놓이지 않도록 경계점을 구함
  4. 도수 : 각 계급에 속하는 관측값의 개수를 셈
  5. 상대도수 : 계급의 상대도수를 구함

히스토그램


  • 연속형 자료에서의 막대그래프
  • 도수분포표를 바탕으로 각 계급에 대한 상대도수를 막대로 나타냄
  • 히스토그램의 전체 면적은 1이다

도수다각형


  • 히스토그램에서 각 계급구간의 막대 상단의 중앙점을 직선으로 연결
  • 자료 분포를 히스토그램 보다 쉽게 파악할수 있음 / 상대도수변화, 자료 중심위치, 퍼진 정도 등
  • 하나의 좌표에 여러 종류의 도수다각형을 나타내어 비교하기 쉬움
  • 여러 개 자료를 비교할때 매우 유용함 ex) B학교 학생의 평균이 A학교 학생보다 높다.

줄기-잎 그래프


  • 장점 : 실제 관측값을 그대로 보여주므로 최댓값, 최솟값 등을 파악하기 쉬움
  • 단점 : 자료의 개수가 많거나 지나치게 흩어져 있는 경우 적정하지 않음

이산형 자료의 요약


  • 관측값의 종류가 적은 경우 : 범주형 자료를 요약하는 방식
  • 관측값의 종류가 많은 경우 : 연속형 자료를 요약하는 방식

분포의 모양


0개의 댓글