통계학 2회차 세션 -(1) 상관관계분석

SEHEE·2025년 7월 1일
0

⭐통계 개념 정리

목록 보기
6/10

🔥오늘 핵심

🧡실무에서 쓰는것만 추려서 진행

🔥오늘 헷갈린 개념

⭐모르는 개념



  1. 상관관계분석 엄청 자주 쓰임
  • 두개 이상의 "수치형 변수"가 서로 어떤 관계를 가지고 있는지, 그 관계의 "강도"와 "방향성"이 어떤지를 나타내는 통계적 척도
  • "하나의 수치형 변수가 커질 때, 다른 수치형 변수도 함께 커지는지 혹은 작아지는지" 같은 "⭐수치형-수치형 관계"를 파악할 때 사용


=> ⭐두 변수의 관계가 선형적인 관계가 있을때만 사용 가능

  • 양의 상관관계(+,+ Positive Correlation) : 두 변수 모두 값이 증가하는 경향을 보이는 관계( 예. 광고비와 매출액 )
  • 음의 상관관계(+,- Negative Correlation) : 한 변수의 값이 증가할 때 다른 변수의 값은 감소하는 경향을 보이는 관계 ( 예. 상품 가격과 판매량 )
  • 무상관( No Correlation ) : 두 변수 사이에 일정한 선형적인 관계가 없는 경우 ( 예. 고객의 거주 지역과 구매하는 상품의 색상 )

상관계수(orrelation Coefficient)
= 두 변수 간의 선형적 관계의 강도와 방향을 수치로 나타낸 값
-> general : 피어슨 상관계수

피어슨 상관계수
: 두 변수가 연속형이고, 두 변수 간의 관계가 선형이라는 가정을 전제제

스피어만 상관계수
:

  • 데이터가 순서형이거나 이상치가 많거나, 관계가 비선형적일때
  • 원래의 데이터를 순위(rank)로 변환해 피어슨 상관계수와 동일한 방식으로 계산

    => 두 상관계수 비교
  • 단조 관계 - 값이 한 방향으로만 움직이는 관계
  1. 분석 과정

**** 한계점 및 주의사항

  • 인과관계가 아님!
    • 상관관계는 두 변수가 함께 움직이는 경향을 나타낼 뿐, 한 변수가 다른 변수의 원인이라는 인과관계를 의미하지 않음

      ex) 아이스크림 판매량과 익사자 수는 양의 상관관계를 보이지만, 아이스크림이 익사의 원인이 아니라 '여름'이라는 제3의 변수(교란 변수) 때문일 수 있습니다. (더운 날씨에 아이스크림도 많이 팔리고, 물놀이도 많이 하기 때문)

  • 비선형 관계 파악의 어려움
    • 피어슨 상관계수는 선형 관계의 강도만 측정합니다. 만약 두 변수 사이에 강력한 비선형 관계(예: U자형, 역U자형)가 있다면, 피어슨 상관계수는 0에 가깝게 나와 관계가 없는 것처럼 오해할 수 있습니다. 이때는 산점도 확인이 필수적입니다.
  • 이상치(Outlier)에 민감
    • 피어슨 상관계수는 이상치에 의해 크게 영향을 받을 수 있습니다. 몇몇 특이한 데이터 포인트가 전체 상관계수 값을 왜곡할 수 있습니다.

필기
1. 상관관계분석

우리는 상관계수 파이썬한테 계산을 시킨다. 우리는 해석만 할 줄 알면 됨

스피어만 상관계수
순서형 -> 명목변수지만 숫자에 의미가 있어 수치형 처럼 쓸 수 있어 가져옴, 그리고 이상치가 많으면 이렇게 쓰임

스피어만은 그냥 이해하고 넘어가고 피어슨이 우리에겐 훨 중요함!

=>⭐상관관계분석은 수치형 변수라는거 잊지말자. 가장 중요

~강의 15분까지

시각화 하는 식들은 전혀 외울 필요 없음. -> 그냥 그때그때 인터넷 찾아서 쓰면됨

corr.() -> 피어슨 상관관계수는 이거만 딱 쓰면 쉽게 값이 나옴

상관관계는 인과관계가 아님

  1. 카이제곱검정
  • 범주형 변수간의 관련성을 따질때 사용

적합도검증은 하나의 범주형 변수
-> 독립성검정 무조건 알아야함!

카이제곱 분포 그래프는 그냥 알고 넘어가면됨~

⭐자유도가 크다 = 데이터 값이 많아진다라고 정도만 알면됨( 자유도는 뭐고~ 이런건 몰라다도됨 )

profile
안녕하세요! 마케터를 꿈꾸는 취준생입니다 :)

0개의 댓글