상관분석은 주로 연속형 변수 간의 관계를 파악하는 데 사용됨
피어슨 상관계수를 주로 사용
그럼 범주형은 어떻게 상관관계를 분석할까??
범주형 변수간의 상관관계의 경우 카이제곱 검정이나 Cramer’s V와 같은 방법을 사용한다.
범주형 데이터가 얼마나 서로 독립적인지 or 연관이 있는지를 파악하는 용도
연속형 변수와 범주형 변수 간의관계는 ANOVA(분산분석)이나 상자그림과 같은 방법을 사용한다.
범주형 변수의 각 카테고리에서 연속형 변수의 평균이 유의미하게 다른지 확인 할 수 있다.
사실 추천 알고리즘에서 상관분석이 중요한 역할을 할 것이라고 생각했는데.. 안타깝게도 아니라고 함.
추천 시스템 알고리즘에 도움을 준다기 보단 피처를 설계할 때 어떤 속성들이 서로 관련이 있는지 이해하기 위해서 사용 할 수 있다고 한다.
하지만 추천 알고리즘 자체는 피처간의 상관성 보다는 유사성에 중점을 두는 경향이 있음
상관계수
: 두 연속형 변수간의 선형적 관게를 측정 / 지선형적 관계는 반영하지 못함
=> 상관계수는 오직 선형적 패턴만 포착하기 때문에 상관계수가 낮다고 유사성이 없는건 아님
ex. 두 주식의 가격이 모두 꾸준히 상승하지만 하나는 안정적이고 다른 하나는 변동폭이 클때 두 주식의 상관계수는 높을 수 있지만 변동성 패턴은 다르다.
이때 두 주식이 같은 사이클을 따르면 상관계수는 낮을 수 있지만 유사성은 높다
상관계수 분석은 회귀분석 수행 전 다중 공선성을 확인하는데 쓰임
다중 공선성(독립 변수 간 강한 상관관계)가 있으면 모델의 예측력이 떨어질 수 있어 공선성이 높은 변수를 제거하거나 조정해야함
유사성
: 두 데이터 포이트가 얼마나 비슷한지 측정 / 선형성 뿐만 아니라, 패턴, 모양, 특징 등을 고려
=> 더 포괄적 개념, 비선형적 관계나 복잡한 패턴도 유사성 측정 방법으로 파악 가능
ex. 코사인 유사도, 유클리드거리, 자카드 유사도