[요약] 기술통계 정리

magnussapiens·2022년 10월 11일

통계학대백과사전

목록 보기
1/2

책 < 통계학 대백과 사전> 을 읽고 정리한 내용입니다.

  • 데이터의 척도 : 측정 수준에는 비율척도, 등간척도, 서열척도, 명목척도가 있습니다.

  • 양적데이터의 경우 비율척도와 등간척도를 활용하고 질적 데이터의 경우 서열척도와 명목척도를 활용합니다.

  • 등간척도의 경우, 숫자 0에 절대적인 의미가 없으며 숫자 차이에만 의미를 가지는데, 온도가 대표적인 사례입니다.
    (추가) 온도가 등간척도인 이유는 이렇게 생각해볼 수 있습니다. 50°C와 100°C 물이 있다고 할 때, 100°C물은 50°C물의 2배 뜨거운 온도를 갖고 있다고 말하기 어렵습니다. 그 이유는 °F 로 변경했을 때, 두 온도가 122°F, 212°F 로 표기할 수 있는데 이 두가지 표기에서는 2배의 차이가 발생하지 않기 때문입니다.

  • 도수분표표는 여러개의 구간을 설정하고 구간에 포함된 데이터 숫자의 개수를 집계하여 표로 나타낸 것을 의미합니다.

  • 이를 가지고 가로축엔 데이터 값을, 세로축엔 도수를 그려 각 계급을 직사각형으로 표현한 그래프를 '히스토그램' 이라고 합니다.

  • 상대도수는 그런 도수를 비율로 나타낸 값을 의미하고, 그 표 위에서부터 순서대로 더하면 누적 상대 도수를 만들 수 있습니다.

  • 항목을 도수의 내림차순으로 정렬하여 히스토그램을 그리고, 누적 상대도수를 꺾은선 그래프로 겹친 것을 파레토그림 이라고 합니다.

  • 변동계수는 표준편차의 평균값을 의미하며, (std/ mean) 평균이 다른 집단 2개의 데이터 흩어짐 정도를 비교할 때 활용합니다.

  • 다변량분석에서는 변량(변수)들을 표준화 하여 사용하게 되며, 평균이 0, 분산이 1이 되도록 표준화 할 수 있습니다.

  • 데이터를 표준화 하려면 편차를 표준편차로 나누는 방식에서 부터 시작하는데, 이렇게 표준화 한 값을 다시 원하는 분포 (예 : 평균이 30, 분산이 5) 로 바꾸고자 한다면, '표준화 한 값 x 5 + 30' 으로 편차값을 정의할 수 있습니다.

  • 왜도의 경우, '표준오차를 편차로 나눈 값((xi-x_bar) / s)' 세제곱의 평균으로 구할 수 있습니다.

  • 첨도의 경우 '표준오차를 편차로 나눈 값((xi-x_bar) / s)' 네제곱의 평균 - 3을 뺀 값으로 설명할 수 있습니다.
    (추가) 데이터가 정규분포를 따를 때 0이 되도록 하기 위해 3을 빼서 첨도를 구합니다.

  • 로렌츠 곡선은 소득데이터로 도수분표를 만든 뒤, 가로축에 누적 상대도수, 세로축에 소득의 누적 상대도수를 두고 그린 곡선을 말합니다.

  • 지니계수는 로렌츠 곡선과 균등 분배선으로 감싼 부분의 넓이를 직각 삼각형의 넓이로 나눈 값을 의미하며, 빈부차이 격차를 나타내는데 사용합니다.

  • Q-Q플롯은 2개의 누적 분포함수에 대해 같은 값을 만족하는 (x, y)를 그린그래프를 말합니다.
    (추가) 정규분포와 비교하여 어느정도 어긋났는지 확인하는데도 사용할 수 있습니다.

0개의 댓글