공분산과 상관계수

Hansss·2021년 11월 29일
0

Statistic/Math

목록 보기
7/11

공분산

공분산은 2개의 확률변수의 선형 관계를 나타내는 값이다.

만약 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값도 상승하는 선형 상관성이 있다면 양수의 공분산을 가진다.

반대로 2개의 변수중 하나의 값이 상승하는 경향을 보일 때 다른 값이 하강하는 선형 상관성을 보인다면 공분산의 값은 음수가 된다.

두 변수가 독립적이라면 공분산은 0이 되지만, 그 역은 항상 성립하진 않는다.


공분산은 X의 편차와 Y의 편차를 곱한것의 평균이다.

상관 계수

공분산은 각 확률 변수의 단위의 크기에 영향을 받는다는 단점이 있다.

예를 들어 100점이 만점인 두 과목의 상관성은 부족하지만 100점 만접이기 때문에 공분산의 값이 크게 나오고

10점 만점인 두 과목의 상관성은 높은데 만점이 10점이기에 공분산의 값이 작게 나올 수 있다.

따라서 상관 정도의 절대적인 크기를 측정할 수 있도록 해주는 것이 바로 상관계수이다.

  • 상관계수의 성질
    • 상관계수의 절대 값은 1을 넘을 수 없다.
    • 확률변수 X,Y가 독립이라면 상관계수는 0이다.
    • X와 Y가 선형적 관계라면 상관계수는 1 혹은 -1이다.
profile
딥러닝 연습생

0개의 댓글