산점도 관계를 눈으로 보기!!
상관계수(r)로 숫자 요약하기
산점도의 핵심: 2개의 양적변수(2개의 숫자끼리)
현실 데이터는 변수가 쌍으로 존재하는 경우가 많음
단일 변수 평균/분산만 보지 말고, 관계를 살펴야함
1. 단일 변수 수준에서 할 수 있는 것
어떤 데이터가 있으면, 우리는 그 변수 하나의 특성을 평균, 분산, 표준편차 같은 요약값으로 볼 수 있음.
예: 학생들의 키 평균 = 170cm, 분산 = 25 (흩어짐 정도).
👉 하지만 이건 “키라는 변수 하나만 본” 결과
2. 관계까지 살펴야 한다는 의미
현실 데이터에서는 보통 변수들이 서로 연결되어 있음
예: 키와 몸무게, 공부시간과 시험점수, 영화 러닝타임과 관객수.
평균/분산만 보면 “그 변수가 어떤 분포인지” 정도만 알 수 있고,
관계를 살펴야 비로소 “이 변수와 저 변수가 어떤 영향/연관을 주고받는지”를 알 수 있음
3. 예시
영화 데이터:
단일 변수: 러닝타임 평균 120분, 분산 20 → “보통 영화는 2시간쯤이다.” 정도밖에 못 앎.
관계 분석: 러닝타임과 관객수의 상관관계 → “러닝타임이 길수록 관객이 더 많이 드는가?”
NBA 데이터:
단일 변수: 선수의 TS% 평균 0.55, 분산 0.03.
관계 분석: TS%(슛효율)와 USG%(공격기회)의 관계 → “공격권을 많이 쓰는 선수일수록 슛 효율이 떨어지는가?”
Q. 왜 단일 변수 평균/분산만 보면 위험한가?
A. 평균/분산만 보면 놓치는 점
평균은 중심값, 분산은 흩어짐만 알려줌
하지만 데이터가 왜 그렇게 나왔는지, 다른 변수와 어떤 관계가 있는지는 전혀 설명 못 함.
예:
한 반 학생들의 공부시간 평균 = 3시간, 분산 = 1시간²
→ “애들이 평균 3시간 공부하고, 크게 차이 안 난다” 정도밖에 못 앎.
그런데 성적과 관계를 보지 않으면 “공부시간이 늘면 성적이 진짜 오르는지”는 알 수 없음.
관계를 보니 달라지는 해석
(1) 공부시간 ↔ 시험점수
단일 변수: “공부시간 평균은 3시간이다.”
관계 분석: 공부시간이 늘어날수록 점수도 같이 오름 → 공부시간이 성적에 영향을 줌.
(2) NBA 예시: USG% ↔ TS%
단일 변수: “디트로이트 선수들의 TS% 평균은 0.53이다.”
관계 분석: USG%(공격권 사용 비율)가 높은 선수는 TS%(슛 효율)가 떨어짐 → 팀의 공격권 배분 문제가 있음.
👉 이건 평균 TS%만 봐서는 전혀 알 수 없는 사실.
두개의 양적변수: 숫자
상관계수, 산점도, 2개의 변수간의 관계를 보려면 두개의 양적변수(숫자끼리)만 본다
싱관계수 숫자로 요약한다했으니 당연한 이야기
범주형(성별,지역,학과등에는) 적용 불가
성별<->점수 상관관계를 수치로 표현하기 어려움 상관계수(숫자)
두 변수를 동시에 그릴 때 가장 기본 도구
각 데이터 한 점이 (x,y) 좌표위에 찍힘
우상향 -> 양의상관
우하향 -> 음의상관
제멋대로 흩어짐 -> 약한 상관
왜 산점도가 필요할까?(중요성)
상관분석의 출발점
숫자(r만)보고 판단하면 위험
숫자는 왜곡될수 있지만, 그림은 직관적으로 관계를 보여줌
평균만 강조:
평균값은 극단치(Outlier)에 쉽게 끌려감
예: 한 반 학생 29명은 월급 300만 원, 1명은 월급 1억 → 평균은 600만 원.
👉 “이 반 평균 월급 600만 원”이라는 숫자는 실제 대부분 학생의 현실을 왜곡함.
분산·표준편차도 한계:
분산이 크다고 해서 반드시 “문제가 심하다”는 의미는 아님.
데이터가 단순히 여러 집단이 섞여 있어서 클 수도 있음.
숫자만 보면 관계 놓침:
예: 평균 공부시간 3시간, 평균 점수 70점 → “공부시간과 점수는 관계 없다”고 착각할 수 있음.
하지만 개별 점을 찍어보면 “많이 공부한 애들은 점수가 오르는 추세”가 보일 수 있음.
산점도: 두 변수의 관계(양/음의 상관, 선형/비선형)를 눈으로 바로 확인 가능.
박스플롯: 평균과 분산으로는 알 수 없는 분포의 비대칭, 극단값까지 한눈에 보임.
히스토그램: “평균 3시간” 이라고 해도 실제로는 1시간, 5시간에 몰려 있을 수 있는데, 그림을 보면 분포 모양이 드러남.
단일 요약 통계(평균/분산) → 오해 유발 가능.
시각화(산점도·히스토그램·박스플롯) → 숫자의 맥락과 관계를 더 솔직하게 보여줌.
따라서 숫자는 “요약”이고, 그림은 “맥락”이라고 보는 게 안전.
👉 정리:
숫자는 단순화 과정에서 본질이 왜곡되기 쉽다. 그림은 데이터의 관계와 분포를 더 직관적으로 보여주기 때문에 해석을 왜곡할 위험이 적다.
산점도는 눈으로 관계를 확인
하지만 보는 사람마다 해석이 다를 수 있음
그래서 산점도의 패턴을 숫자 하나로 요약
->이 숫자가 상관계수(r)(-1~+1)
(1) 시각적 왜곡:
산점도의 가로축과 세로축의 비율(가로세로비)을 어떻게 설정하느냐에 따라 점들의 분포가 달라져
상관관계의 강도가 강해 보이거나 약해 보일 수 있음
이로 인해 보는 사람은 데이터가 가진 실제 관계를 오해할 수 있음
(2) 겹쳐 보이는 데이터:
데이터가 너무 많을 경우 점들이 서로 겹쳐서 정확한 분포를 파악하기 어려워짐.
이는 특히 변수 간의 관계를 식별하는 것을 어렵게 만듦
(3) 이상치(Outlier)의 영향:
전체적인 경향을 벗어나는 일부 이상치 데이터는 상관관계의 해석을 크게 바꿀 수 있음.
보는 사람의 관점에 따라 이상치를 중요하게 보거나 무시할 수 있어, 해석이 달라짐
Q. 왜 상관계수 -1~+1의 범위가 있는 이유!!
A. +,-가 방향을 알려줌 숫자는 약,중,강으로 볼 수 있음

r값이 0에 가까울수록 관계없다라는 뜻
---
상관은 두 변수가 같이 움직인다는 사실만 요약(관계가 상관있어보임)
하지만 이런 질문에는 답을 하지 못 함
Q1: 광고비를 100만원을 늘리면 매출이 얼마나 늘까?
Q2: 공부시간 1시간이늘면 점수는 몇점 올라갈까?
영향력의 크기를 알고 싶을 때 필요한 도구가 바로 회귀(Regression)-> 영향력을 수치화
설명변수와 반응변수를 구분한다
(1) 설명변수(원인): 독립변수
반응 변수에 영향을 주는 요인, 설명하는 변수
보통 독립변수(Independent Variable, X) 라고도 부름
예:
다이어트 연구에서 운동 시간, 식단 칼로리
광고 마케팅에서 광고비, 노출 횟수
NBA 데이터에서 슛 시도 수(FGA), 턴오버(TO), 출장시간(MIN)
(2) 반응변수(결과)
다른 변수의 영향을 받는 변수
우리가 예측하거나 설명하려는 대상
보통 종속변수(Dependent Variable, Y) 라고도 불러요.
예:
다이어트 연구에서 체중 변화량
광고 마케팅에서 매출액
NBA 데이터에서 팀 승률

산점도 안에 선을 그린게 회귀
*머신러닝
컴퓨터는 어떻게 예측을 할 수 있는가?? 무슨 기준으로??
선형자체가 머신러닝과 비슷하다
실무
마케팅광고비와 매출이 관계있다.
관리자급한테 돈 좀 써달라 설들해야할 때
광고비를 100만원을 늘리면 매출이 평균 얼마나 늘어난다라는 구체적인 수치를 원한다
->이 때 회귀분석이 강력한 도구가 된다.따라서 상관과 회귀를 분석해야한다

ㄴ공분산(Covariance)이란?
“두 변수가 얼마나 같이 움직이는지”를 나타내는 값
예:
X가 커질 때 Y도 같이 커진다면 → 양의 공분산
X가 커질 때 Y는 작아진다면 → 음의 공분산
둘 사이에 뚜렷한 패턴이 없다면 → 공분산 ≈ 0

공분산의 문제점
공분산의 크기는 단위에 따라 달라짐
예를 들어:
X = 몸무게(kg), Y = 키(cm) → Cov 단위는 kgcm
X = 몸무게(g), Y = 키(m) → Cov 단위는 gm
👉 즉, 단위 바꾸면 값이 확 달라져서 “상대적인 크기 비교”가 어려움.
그래서 표준편차로 나눈다
공분산을 각 변수의 표준편차로 나눠주면 단위가 사라져서
비교 가능해지고
값이 항상 -1 ~ +1 사이로 정규화(normalization) 된다.

사회연구 같은 경우에는 이 수치를 낮게 잡아서 보거나
물리실험 같은 경우에슨 0.9부터가 의미가 있다
📌 일반적인 해석 기준 (사회과학 쪽에서 자주 씀)
보통 사회과학, 심리학, 교육학 연구에서는 인간 행동이 워낙 복잡하고 노이즈가 많아서 상관계수가 낮아도 의미 있는 경우가 많음.
|r| ≈ 0.1 → 약한 상관 (weak)
|r| ≈ 0.3 → 중간 정도 (moderate)
|r| ≥ 0.5 → 강한 상관 (strong)
예:
심리 연구에서 “스트레스 수준과 수면 시간” r = –0.25 → 의미 있는 관계로 발표될 수 있음.
교육 연구에서 “공부 시간과 시험 점수” r = 0.35 → 꽤 중요한 상관관계로 간주.
📌 물리·공학 연구
자연현상은 인간 행동보다 변동이 적고 수학적으로 더 정확하게 설명 가능한 경우가 많음.
그래서 여기서는 상관계수가 훨씬 높아야 ‘의미 있다’고 말함
|r| ≥ 0.9 → 강한 상관, 신뢰할 만함
|r| ≈ 0.7~0.8 → 약간 부족, 더 많은 데이터나 보정 필요
|r| < 0.5 → 거의 의미 없는 수준
예:
전기저항 vs 온도 → r = 0.98 → 선형 법칙 확인
물체의 질량 vs 무게(중력 가속도 일정할 때) → r ≈ 1.00 → 거의 완벽한 상관
📊 예시 비교
사회과학 연구 (교육심리학)
변수: SNS 사용 시간(X), 우울감 점수(Y)
결과: r = 0.28 → 사회과학에서는 “의미 있는 약한 상관”
물리학 연구 (뉴턴 역학)
변수: 힘(F), 가속도(a)
결과: r = 0.999 → “거의 완벽한 상관”, 법칙적 관계 확인
실무
보고서에는 상관계수랑 같이 넣어놓는게 좋다.
*같이 움직임-> 상관이 있냐? 없냐?

r에대해서도 설명을 해주어야한다. 산점도랑 r값을 같이 봐주야함

상관계수 r은 평균과 분산기반
평균과 분산은 이상치 하나만 들어와도 크게 흔들림
따라서 상관계수도 이상치에 매우 민감

점수가 낮아져서 상관계수 낮아진다
분산이 흔들리고 평균이 흔들리니까


r이 낮아진걸 확인할 수 있음
r만 봤을 때 착각을 할 수 있는 거임
마케팅 데이터에서 동일현상 발생
광고비<->매출관계애서 특정 고객의 매출=0-> r값 왜곡
-> 항상 산점도 + r값 제시
-> 숫자만 보고 보고서 작성 금지
ㄴ 장점: 이상치에 덜 민감(순서만 보기때문에)
ㄴ 곡선(비선형)관계도 잡아낼 수 있음
ㄴ 실제 수치가 아니라 순서가 일치하는 지를 보는 것:
학생 10명: 공부시간↑ -> 점수↑
순서(rank)만 유지되면 스피어만 r은 높음
특정 학생이 0점을 받아도, 순위 전체가 크게 바뀌지 않으면 값은 안정적
-> 순위만 맞은 값이 튀어도 괜찮다.
문제)
금융데이터:주가처럼 이상치가 잦은 경우->스피어만 상관계수
설문 데이터: 1-5점 서열 척도->스피어만 상관계수
*모수 파라미터
모수의 대표적인 분포 정규분포
비모수->정규분포가 아니겠지?
모수의 상관계수와 비모수의 상관계수로 나눌 수 있다 피어슨상관계수와 스피어만 상관계수로
스피어만 상관계수는 실제 값을 그대로 사용하지 않는다. 순서만 보기 때문에
고객 만족도를 1~5점 척도로 계산했을 때 피어슨 vs 스피어만 : 스피어만
-> 따라서 통계적 검정이 필요
📌 가설 설정
귀무가설(H₀): 모집단에서 상관이 없다 (ρ = 0)
대립가설(H₁): 모집단에서 상관이 있다 (ρ ≠ 0)
📌 판정 기준
p < 0.05 → 우연이라고 보기 어렵다 → 유의한 상관
p ≥ 0.05 → 우연일 수도 있다 → 단정할 수 없음
📌 신뢰구간 연결
예: r의 95% 신뢰구간이 (–0.1 ~ 0.6)
0 포함 → 상관 없을 수도 있음 (p ≥ 0.05)
0 미포함 (예: 0.2 ~ 0.7) → 상관 유의 (p < 0.05)
👉 여기서 “0”은 상관 없음(ρ = 0) 을 의미 평균차이가 0이다
📌 상관계수 신뢰구간 예시
Case A: 신뢰구간 (–0.1 ~ 0.6), 0 포함 → 상관 유의하지 않음
Case B: 신뢰구간 (0.2 ~ 0.7), 0 미포함 → 상관 유의

많은 사람들이 r=0이면 "관계없다"고 해석
그러나 피어슨 상관계수는 직선(선형) 관계만 측정
곡선 관계는 잡아내지 못함 (r이 0일때 더더욱)
예시
공부시간 집중력은 비선형 관계
0시간-> 집중력 낮음
5시간-> 집중력 최고점
12시간-> 과로로 집중력 하락
→ 곡선(∩ 모양) 관계에서는 r ≈ 0일 수 있음
→ 실제로는 강한 비선형 관계
시각적 비교
산점도: r ≈ 0, 포물선 패턴
직선 피팅: 관계를 못 잡음


📌광고비<->매출 상관관계
일정 수준까지 광고비↑ -> 매출↑
일정 수준을 넘어가면 광고 효과 감소 심지어 손해
-> 선형관계만 보면 "관계없음"처럼 보이지만, 실제로는 비선형관계
📌 NBA에서의 비선형 관계 예시
선수 출장 시간(MIN) ↔ 효율성(TS%, PER 등)
적정 시간까지는 경기 리듬을 타서 효율 ↑
너무 오래 뛰면 체력 저하로 슛 성공률↓, 턴오버↑
→ 선형관계만 보면 "큰 상관 없음(r≈0)"처럼 나오지만, 실제론 곡선(∩) 관계
Usage%(USG%) ↔ 팀 승률
공격 비중이 적정 수준까지는 팀에 기여 ↑
그러나 특정 선수의 USG%가 지나치게 높아지면 → 팀 공격이 단조로워지고 승률은 다시 ↓
→ “과유불급” 효과, 비선형 관계
📌 영화 데이터에서의 비선형 관계 예시
영화 러닝타임 ↔ 관객 만족도
너무 짧으면 몰입 부족 → 만족도↓
적정 길이(예: 100~120분)는 만족도↑
너무 길면 지루함 → 만족도 다시↓
→ 러닝타임과 평점은 포물선(∩) 형태
마케팅 비용 ↔ 관객 수(흥행 성적)
일정 수준의 마케팅은 흥행에 긍정적 영향
하지만 과도한 마케팅(과대 광고)은 오히려 반감 → 관객 수 기대만큼↑ 안 됨
→ 선형이 아닌 체감 효과
