통계 용어 정리(1)

박경국·2021년 11월 9일
0

Statistics

목록 보기
1/16
post-thumbnail

분산

  • 관측치들이 평균에서 평균적으로 얼마나 떨어져 있는지를 계산합니다.
  • 그래서 분산이 0에 가깝다면, 관측치들이 대부분 평균 근처에 몰려 있는 것을 의미하고, 분산이 커질수록 평균에서 멀리 떨어져있다는 것을 의미하죠.

표준편차

  • 분산에 제곱근을 씌워서 단위의 문제를 해결한 이 숫자를 표준편차라고 합니다.
  • 분산이 면적이었다면 표준편차는 다시 길이를 의미합니다. 표준편차가 클수록 관측치들이 평균으로부터 더 멀리 떨어져 있다는 뜻이죠.

표준화

  • 중심화 : 어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 0이 나옵니다. 이제 두 점수는 상대적인 차이가 없습니다. 이렇게 각 관측치에서 평균을 빼는 과정을 중심화라고 합니다. 중심화를 하면 똑같은 90점이라 해도 어느 쪽이 상대적으로 평균보다 큰 값인지 확인할 수 있습니다.
  • 척도화 : 제일 왼쪽 학생을 예로 들면, 원래 점수 6점에서 평균 15를 뺀 -9점을 표준편차 6으로 나눠도 -1.5, 점수를 2배로 늘린 12점에서 평균 점수 30점을 뺀 -18점을 표준편차 12로 나눠도 똑가이 -1.5의 값을 가집니다.
    • 이처럼 각 관측치를 표준편차로 나누는 것을 척도화라고 합니다. 척도화는 단위에 따른 차이를 고려해서 값들을 상대적인 척도로 바꿉니다.
    • 예를 들면, 평군보다 9점이 낮았던 학생의 점수에 척도화를 하면 -1.5라는 값을 갖게 되는데, 이것은 이 학생이 평균에서 표준편차의 1.5배만큼 더 낮은 점수를 점수를 갖고 있다는 의미입니다.
  • 변수를 먼저 중심화하고 다음으로 척도화하는 과정을 표준화라고 합니다.
  • 표준화를 거친 변수의 평균은 0이 되고 표준편차는 1이 됩니다. 평균도, 표준편차도, 단위도 달랐던 변수들이 똑같은 특징을 가지게 되면 드디어 다른 변수에 있는 관측치들을 비교할 수 있습니다. 이제 변수 불수능에 있는 80점과 변수 물수능에 있는 100점 중 누가 평균으로부터 더 멀리 떨어져 있는지 살펴봅시다.

확률모형

  • 성공하는 사람과 실패하는 사람들의 정보를 모아 데이터를 만들고 도대체 어떤 차이가 성공과 실패를 가르는지 확률모형을 만듭니다. 이 확률모형 속에서 성공할 확률에 영향을 미치는 변수가 무엇인지 살펴볼 수 있고요.

공분산

  • 변수 x와 y를 함께 사용해서 계산한 분산이라는 의미에서 공분산이라고 부릅니다.
  • 공분산의 값이 양수일 때 통게는 두 변수가 양의 상관관계가 있다고 합니다. 두 변수가 함께 크거나 함께 작은 일정한 패턴이 있는 것이죠.
  • 반대로 공분산의 값이 음수일 때는 두 변수가 음의 상관관계가 있다고 합니다. 변수 하나가 커지면 나머지 하나가 작아지는 것이죠.

상관계수

  • 표준화된 두 변수의 공분산을 산관계수라고 부릅니다.
  • 두 변수의 상관계수가 -1에 가까울수록 강한 음의 상관관계, 1에 가까울수록 강한 양의 상관관계를 가지고 있으며 0에 가까울수록 서로 관련이 없다는 것을 의미합니다.

조건부 확률

  • 설명 변수를 활용해서 조건을 설정하고 계산한 확률이나 평균을 조건부 확률, 조건부 평균이라고 합니다.

0개의 댓글