[데이터 분석과 비판적 사고]을 읽고 -상관관계
상관관계:무엇이며 어디에 쓰이는가?
상관관계:두가지 특성이 함께 일어나는 경향의 크기
상관관계를 측정하려면 두가지 특성이 모두 변하는 데이터를 구해야 한다.
상관관계는 관계 서술과 예측,인과 추론에 사용할 수 있다.
상관관계는 선형관계에 국한되지만,생각보다 활용도가 높다.1.상관관계란 무엇인가?
두 특성이 함께 일어나는 경향의 크기
- 두 특성이 함께 일어나는 경향이 있으면
양의 상관관계
- 한 특성의 발생이 다른 특성의 발생과 관련이 없으면
상관관계가 없다
- 한 특성이 일어나면 다른 특성이 안 일어나는 경향이 있다면
음의 상관관계
2.상관관계 그래프에서 특징을 어떻게 수치화할까?
=> 기울기 => 데이터의 최적합선
(그래프에 그린 선과 데이터의 점들 사이에 평균 거리가 가장 작다)
=>기울기의 가파르기는 두 변수의 상관관계가 얼마나 강한지 보여준다.3.상관관계는 어디에 쓰나?
관계 서술,예측,인과추론상관관계를 써서 예측하려면 중요사항을 이해해야 한다.
1.표본에서 발견한 관계가 광범위한 현상을 대표할 만한지 or
데이터에서 우연히 발생한 변이의 결과일뿐인지 여부
=>이것에 대답하려면 통계적 추론을 써야한다.
2.실제로 어떤 관계를 표본에서 발견했다고 확신했더라도, 그 표본 자체가
예측할 대상을 대표할 만한지 잘 생각해봐야한다.
3.상관관계를 통해 예측할때에는 변수 사이의 관계가 바뀌지 않는지 확인해야 한다
ex)21년 나이와 투표율과의 관계가 22년 나이와 투표율과의 관계와 대동소이할 것처럼 보여야함.
4.확보한 데이터의 범위를 넘어서는 예측을 할때도 신중해야한다.
만약 21년 데이터의 나이는 18-88세,예측 할 나이가 100세라면 기존 데이터에 100세 데이터가 없으므로 주의해야함
5.최적합선의 기울기 같은 통계를 활용해,뭔가 예측할 때는
변수들의 관계가 진짜 선형인지도 생각해봐야 한다.4.상관관계 측정
공분산,상관계수,회귀선(기울기)이다.5.공분산과 상관계수
[공분산,상관계수] 공통점: 두 변수 간의 관계를 측정하는 통계적 수단 차이점 - 공분산: 두 변수 간의 변동성의 방향성만을 제공,관계 강도는 알 수 없다. 공분산이 양수이면 두변수가 같은방향으로 변하고, 음수이면 반대 방향으로 변한다. 그러나,공분산의 크기는 변수의 단위에 따라 달라지므로,그 절댓값이 얼마나 큰지는 해석하기 어렵다. 두 변수를 x,y라고 할때 ,모집단의 크기는 n이라고 가정한다. =>(x-평균)*(y-평균) / n - 상관계수: 두 변수 사이의 선형 관계의 강도와 방향을 -1에서 1사이의 값으로 나타내는 표준화된 지표 상관계수가 1에가까우면 양의 선형 관계,-1에 가까우면 음의 선형관계, 0이면 선형 관계가 없음을 의미한다. 상관계수는 공분산을 두 변수의 분산의 곱으로 나눈 값 => 공분산을 표준 편차의 곱으로 나눠 정규화