가장 대표적으로 많이 사용하는 상관계수!

+1 → 완전한 양의 선형 관계-1 → 완전한 음의 선형 관계0 → 선형 관계 없음from scipy.stats import pearsonr 데이터가 정규분포를 따르지 않을 때 사용하는 상관계수!

두 변수의 순위 간 일관성 측정
피어슨보다 이상치에 강함
라이브러리
from scipy.stats import spearmanr

순위 일치/불일치 쌍의 비율 기반
순위 간 일관성 정도 측정
라이브러리
from scipy.stats import kendalltau
상호정보를 이용한 변수끼리의 상관계수 계산!

두 변수 간 상호 정보량 측정
→ 하나의 변수를 알면 다른 변수의 불확실성이 얼마나 줄어드는지를 측정
언제 사용?
라이브러리
from sklearn.metrics import mutual_info_score
독립변수(x)를 통해 종속변수(y)를 예측
데이터를 가장 잘 설명하는 선 찾기
y = a + bx
1. 변수 설정 & 가설 수립
2. 경향성 확인
3. 정합성 검증 & 결과 해석
| 종류 | 구분 | 독립변수 | 종속변수 | 목적 | 예시 |
|---|---|---|---|---|---|
| 선형 회귀 | 🔹단순 | 1개 (연속형) | 연속형 | 예측 | 공부시간 → 시험점수 |
| 🔸다중 | 2개 이상 (연속형) | 연속형 | 예측 | 면적, 방수 → 집값 | |
| 로지스틱 회귀 | 🔹이진 | 연속형 / 범주형 | 이진 범주형 (0/1) | 분류 | 공부시간 → 합격 여부 |
| 🔸다중 | 연속형 / 범주형 | 다중 범주형 (3개 이상) | 분류 | 응답시간 → 고객만족도 |
🤷♀️두 강의에서 분류 방법이 왜 차이가 나는 것일까?
정욱튜터님한테 여쭤봤는데 [과정(통계학적 측면)을 함께 보느냐 / 결과(머신러닝적 측면)만 보느냐] 에서 차이가 난다고 하셨다

이런 흐름으로 이해하면 될듯
→ 종속변수의 전체 변동 중에서 회귀선이 설명해주는 비율
| 기호 | 의미 |
|---|---|
| T (Total) | 전체 변동 (y값들이 평균에서 얼마나 흩어져 있는지) |
| R (Regression) | 회귀선이 설명해준 변동 (설명 가능한 부분) |
| E (Error) | 잔차 = 회귀선이 설명하지 못한 변동 (오차) |
⚠️ R ≠ R²
설명력 R² = R / T = 1 - (E / T)

Dep. Variable : 종속변수 R-suared : 결정계수 (R²)F-statistic : F 통계량Prob (F-statistic) : F 통계량의 p-valuecoef : 회귀계수const : 절편x1 : 설명변수std err : 표준오차P>|t| : 각 계수에 대한 p-value[0.025 0.975] : 95% 신뢰구간독립변수: 원인 / 종속변수: 결과
회귀분석 > 예측과 설명이 목적
신뢰할 수 있는지 = p-value 기준으로 판단
데이터를 준비하고, 모델을 학습시켜서, 예측을 만들기까지의 일련의 단계들을 체계적으로 정리한 것
효과
전체 흐름



scaler = StandardScaler()
scaler.fit ❌
scaler.fit(X_train) ⭕ 훈련 데이터만 사용



fit, transform, predict 메서드를 가진 클래스만 사용 가능 (sklearn 대부분 사용 가능)파이프라인 순서대로 각 파일 하나씩 작성해서
DIY 라이브러리 ... 를 만드는 것 정도로 이해함
나중에 프로젝트할때 써먹어보면 좋겠다
📂my_project/
├── 📂data/
│ └── load_data.py
├── 📂preprocess/
│ └── scaler.py
├── 📂model/
│ └── random_forest.py
├── 📂pipeline/
│ └── full_pipeline.py
└── main.py
LogisticRegression , SVC 같은 다른 모델로 파이프라인 바꿔보기
MinMaxScaler 와 StandardScaler 비교해보기
전부 다 같은 값으로 나와서 의문이었는데, 질문방에 이미 관련한 질문이 있어 답을 얻었다! (경민님 감사합니다)

결론은 데이터셋이 단순해서 그런 것🫡
다른 데이터셋으로 연습해보면 좋을 것 같다
SQL - 입양 시각 구하기(2)
SQL -특정 기간동안 대여 가능한 자동차들의 대여비용 구하기
코드카타 73-74✅코드카타 43-44❌세션 4회차✅ 기초강의 5-6주차✅ 스탠다드 7회차✅ 1강❌오늘은 지각을 했다🥲 하하
코드카타도 다 못했고.. 머신러닝 강의도 들으려고 했는데 강의 세개 들으려니까 너무 힘들다
스탠다드반은 오늘 처음으로 머신러닝 들어갔는데 생각보다 재밌었다(아직 쉬워서 그렇겠지만) 내일 머신러닝 강의 들으면서 복습한다 생각하면 될듯 ! 고생했따 오늘도🍀
💿오늘의 추천곡 Official髭男dism - Pretender

히게단디즘 조 아 ~