🧡실무에서 쓰는것만 추려서 진행
- 두개 이상의 "수치형 변수"가 서로 어떤 관계를 가지고 있는지, 그 관계의 "강도"와 "방향성"이 어떤지를 나타내는 통계적 척도
- "하나의 수치형 변수가 커질 때, 다른 수치형 변수도 함께 커지는지 혹은 작아지는지" 같은 "⭐수치형-수치형 관계"를 파악할 때 사용

=> ⭐두 변수의 관계가 선형적인 관계가 있을때만 사용 가능
상관계수(orrelation Coefficient)
= 두 변수 간의 선형적 관계의 강도와 방향을 수치로 나타낸 값
-> general : 피어슨 상관계수
피어슨 상관계수
: 두 변수가 연속형이고, 두 변수 간의 관계가 선형이라는 가정을 전제제
스피어만 상관계수
:
- 데이터가 순서형이거나 이상치가 많거나, 관계가 비선형적일때
- 원래의 데이터를 순위(rank)로 변환해 피어슨 상관계수와 동일한 방식으로 계산
=> 두 상관계수 비교
- 단조 관계 - 값이 한 방향으로만 움직이는 관계

**** 한계점 및 주의사항
상관관계는 두 변수가 함께 움직이는 경향을 나타낼 뿐, 한 변수가 다른 변수의 원인이라는 인과관계를 의미하지 않음
ex) 아이스크림 판매량과 익사자 수는 양의 상관관계를 보이지만, 아이스크림이 익사의 원인이 아니라 '여름'이라는 제3의 변수(교란 변수) 때문일 수 있습니다. (더운 날씨에 아이스크림도 많이 팔리고, 물놀이도 많이 하기 때문)
필기
1. 상관관계분석
우리는 상관계수 파이썬한테 계산을 시킨다. 우리는 해석만 할 줄 알면 됨
스피어만 상관계수
순서형 -> 명목변수지만 숫자에 의미가 있어 수치형 처럼 쓸 수 있어 가져옴, 그리고 이상치가 많으면 이렇게 쓰임
스피어만은 그냥 이해하고 넘어가고 피어슨이 우리에겐 훨 중요함!
=>⭐상관관계분석은 수치형 변수라는거 잊지말자. 가장 중요
~강의 15분까지
시각화 하는 식들은 전혀 외울 필요 없음. -> 그냥 그때그때 인터넷 찾아서 쓰면됨
corr.() -> 피어슨 상관관계수는 이거만 딱 쓰면 쉽게 값이 나옴
상관관계는 인과관계가 아님
적합도검증은 하나의 범주형 변수
-> 독립성검정 무조건 알아야함!
카이제곱 분포 그래프는 그냥 알고 넘어가면됨~
⭐자유도가 크다 = 데이터 값이 많아진다라고 정도만 알면됨( 자유도는 뭐고~ 이런건 몰라다도됨 )