통계 용어 정리(1)

박경국·2021년 11월 9일

Statistics

목록 보기

1/16

분산

관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산합니다.
그래서 분산이 0에 가깝다면, 관측치들이 대부분 평균 근처에 몰려 있는 것을 의미하고, 분산이 커질수록 평균에서 멀리 떨어져있다는 것을 의미하죠.

표준편차

분산에 제곱근을 씌워서 단위의 문제를 해결한 이 숫자를 표준편차라고 합니다.
분산이 면적이었다면 표준편차는 다시 길이를 의미합니다. 표준편차가 클수록 관측치들이 평균으로부터 더 멀리 떨어져 있다는 뜻이죠.

표준화

중심화 : 어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 0이 나옵니다. 이제 두 점수는 상대적인 차이가 없습니다. 이렇게 각 관측치에서 평균을 빼는 과정을 중심화라고 합니다. 중심화를 하면 똑같은 90점이라 해도 어느 쪽이 상대적으로 평균보다 큰 값인지 확인할 수 있습니다.
척도화 : 제일 왼쪽 학생을 예로 들면, 원래 점수 6점에서 평균 15를 뺀 -9점을 표준편차 6으로 나눠도 -1.5, 점수를 2배로 늘린 12점에서 평균 점수 30점을 뺀 -18점을 표준편차 12로 나눠도 똑가이 -1.5의 값을 가집니다.
- 이처럼 각 관측치를 표준편차로 나누는 것을 척도화라고 합니다. 척도화는 단위에 따른 차이를 고려해서 값들을 상대적인 척도로 바꿉니다.
- 예를 들면, 평군보다 9점이 낮았던 학생의 점수에 척도화를 하면 -1.5라는 값을 갖게 되는데, 이것은 이 학생이 평균에서 표준편차의 1.5배만큼 더 낮은 점수를 점수를 갖고 있다는 의미입니다.
변수를 먼저 중심화하고 다음으로 척도화하는 과정을 표준화라고 합니다.
표준화를 거친 변수의 평균은 0이 되고 표준편차는 1이 됩니다. 평균도, 표준편차도, 단위도 달랐던 변수들이 똑같은 특징을 가지게 되면 드디어 다른 변수에 있는 관측치들을 비교할 수 있습니다. 이제 변수 불수능에 있는 80점과 변수 물수능에 있는 100점 중 누가 평균으로부터 더 멀리 떨어져 있는지 살펴봅시다.

확률모형

성공하는 사람과 실패하는 사람들의 정보를 모아 데이터를 만들고 도대체 어떤 차이가 성공과 실패를 가르는지 확률모형을 만듭니다. 이 확률모형 속에서 성공할 확률에 영향을 미치는 변수가 무엇인지 살펴볼 수 있고요.

공분산

변수 x와 y를 함께 사용해서 계산한 분산이라는 의미에서 공분산이라고 부릅니다.
공분산의 값이 양수일 때 통게는 두 변수가 양의 상관관계가 있다고 합니다. 두 변수가 함께 크거나 함께 작은 일정한 패턴이 있는 것이죠.
반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계가 있다고 합니다. 변수 하나가 커지면 나머지 하나가 작아지는 것이죠.

상관계수

표준화된 두 변수의 공분산을 산관계수라고 부릅니다.
두 변수의 상관계수가 -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미합니다.

조건부 확률

설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균을 조건부 확률, 조건부 평균이라고 합니다.

박경국

다음 포스트

통계 용어 정리(1)

Statistics

분산

표준편차

표준화

확률모형

공분산

상관계수

조건부 확률

[statistics] ANOVA, 신뢰구간, 중심극한정리 등

0개의 댓글