feature 분석을 하면서 각 상관관계를 분석하는 것 또한 중요할 수 있다.

이번 글에서는 각 feature들과 label간의 상관관계 분석을 통해 feature의 중요도를 알아보자.

상관관계란?

통계적 변인과 다른 여러 통계적 변인들이 하나가 변하면 같이 변하는 함수관계
이를 [공변(共變)하는 함수관계] 라고 칭한다.

상관관계가 있다고 인과관계가 있다는 것이 아니라,
각 변인들이 어쩌다 보니 맞춰지는 것을 의미한다.

변인 둘 사이의 관계)

변인 x 와 변인 y가 상관관계가 존재한다는 것 이 밝혀져도, 그 사이에 인과성이 존재하는지 판단하려면 좀 더 주의깊은 고찰이 필요하다. 상관관계는 곧바로 인과관계의 존재 를 암시하지 않는다


상관계수 분석에 자주쓰는 계수를 알아보자

pearsonr():피어슨 상관계수

두 변수간의 선형 상관관계의 정도를 나타내준다.

spearmanr(): 스피어만 상관계수

두 변수간의 크기 순서상의 상관관계의 정도를 나타내준다.

아래 그래프를 보자

단조관계란? x가 커질때 y도 커진다는 관계.

선형관계 & 단조관계 : 피어슨 상관계수를 사용

단조관계 : 스피어만 상관계수를 사용

보통 단조관계가 많기 때문에 스피어만 상관계수를 좀 더 제너럴하게 사용한다고 함.

0개의 댓글