책 < 통계학 대백과 사전> 을 읽고 정리한 내용입니다.
데이터의 척도 : 측정 수준에는 비율척도, 등간척도, 서열척도, 명목척도가 있습니다.
양적데이터의 경우 비율척도와 등간척도를 활용하고 질적 데이터의 경우 서열척도와 명목척도를 활용합니다.
등간척도의 경우, 숫자 0에 절대적인 의미가 없으며 숫자 차이에만 의미를 가지는데, 온도가 대표적인 사례입니다.
(추가) 온도가 등간척도인 이유는 이렇게 생각해볼 수 있습니다. 50°C와 100°C 물이 있다고 할 때, 100°C물은 50°C물의 2배 뜨거운 온도를 갖고 있다고 말하기 어렵습니다. 그 이유는 °F 로 변경했을 때, 두 온도가 122°F, 212°F 로 표기할 수 있는데 이 두가지 표기에서는 2배의 차이가 발생하지 않기 때문입니다.
도수분표표는 여러개의 구간을 설정하고 구간에 포함된 데이터 숫자의 개수를 집계하여 표로 나타낸 것을 의미합니다.
이를 가지고 가로축엔 데이터 값을, 세로축엔 도수를 그려 각 계급을 직사각형으로 표현한 그래프를 '히스토그램' 이라고 합니다.
상대도수는 그런 도수를 비율로 나타낸 값을 의미하고, 그 표 위에서부터 순서대로 더하면 누적 상대 도수를 만들 수 있습니다.
항목을 도수의 내림차순으로 정렬하여 히스토그램을 그리고, 누적 상대도수를 꺾은선 그래프로 겹친 것을 파레토그림 이라고 합니다.
변동계수는 표준편차의 평균값을 의미하며, (std/ mean) 평균이 다른 집단 2개의 데이터 흩어짐 정도를 비교할 때 활용합니다.
다변량분석에서는 변량(변수)들을 표준화 하여 사용하게 되며, 평균이 0, 분산이 1이 되도록 표준화 할 수 있습니다.
데이터를 표준화 하려면 편차를 표준편차로 나누는 방식에서 부터 시작하는데, 이렇게 표준화 한 값을 다시 원하는 분포 (예 : 평균이 30, 분산이 5) 로 바꾸고자 한다면, '표준화 한 값 x 5 + 30' 으로 편차값을 정의할 수 있습니다.
왜도의 경우, '표준오차를 편차로 나눈 값((xi-x_bar) / s)' 세제곱의 평균으로 구할 수 있습니다.
첨도의 경우 '표준오차를 편차로 나눈 값((xi-x_bar) / s)' 네제곱의 평균 - 3을 뺀 값으로 설명할 수 있습니다.
(추가) 데이터가 정규분포를 따를 때 0이 되도록 하기 위해 3을 빼서 첨도를 구합니다.
로렌츠 곡선은 소득데이터로 도수분표를 만든 뒤, 가로축에 누적 상대도수, 세로축에 소득의 누적 상대도수를 두고 그린 곡선을 말합니다.
지니계수는 로렌츠 곡선과 균등 분배선으로 감싼 부분의 넓이를 직각 삼각형의 넓이로 나눈 값을 의미하며, 빈부차이 격차를 나타내는데 사용합니다.
Q-Q플롯은 2개의 누적 분포함수에 대해 같은 값을 만족하는 (x, y)를 그린그래프를 말합니다.
(추가) 정규분포와 비교하여 어느정도 어긋났는지 확인하는데도 사용할 수 있습니다.