표준화와 정규화의 차이가 무엇일까?
머신러닝을 하려면 값의 기준점을 맞춰줘야 한다. 이는 Feature Scaling으로 서로 다른 범위를 가지는 변수들의 기준점을 맞추는 작업이다.
- 표준화(Standardization): 평균 0, 표준편차 1로 피쳐(값, 컬럼)을 변환하는 작업.
- 정규화(Normalization): 0 ~ 1 범위로 피쳐(값, 컬럼)을 재조정하는 작업.

주의점
표준화를 진행한다고 반드시 표준정규분포가 되는 것이 아니다. 원본 데이터가 정규분포를 따랐다면, 표준화의 결과가 표준정규분포가 된다. 하지만 원래 데이터가 정규분포를 따르지 않았다면, 표준화 결과도 비정규 분포가 됨.

각 데이터 포인트(Data Point) 에서 평균을 뺀 값을 표준편차로 나눠줌. 데이터가 평균에서 얼마나 떨어져 있는지를 표준편차 단위로 나타내는 지표. 데이터의 정규분포내 상대적 위치 파악에 사용됨.
95% 신뢰구간: 평균에서 1.96(= z-score) 표준편차 떨어진 지점까지의 영역
[다시 정리]
95%의 신뢰 수준의 의미(구간 폭의 기준을 정함)
하나의 표본의 신뢰 구간을 결정할 때 사용함. 모집단의 평균이 있을 법한 범위를 정하는 것임.
z-score(구간 폭 계산 도구)
이때의 구간에 해당하는 값의 범위를 지정하기 위해 1.96을 표준 오차에 곱해서 구간을 만듬.
→ 여러 표본 반복
이렇게 100개의 표본을 만들면 95개의 구간이 실제 평균을 포함하고 있는 구간이라고 기대됨. 5개는 실제 평균을 포함하지 못할 것이라고 기대함.
대표적인 방법: StandardScaler
데이터셋의 연속형변수 컬럼들에 대한 차이를 유지한 상태로(상대적 위치나 비율 유지) 공통척도 변환
범위가 다른 연속형 변수들을 0과 1사이로 배치해 서로 다른 변수들을 비교하고 학습에 사용하기 위해 정규화를 진행함.
대표적인 방법: MinMax Scaler
| 구분 | 표준화(Standardization) | 정규화(Normalization) |
|---|---|---|
| 원리 | 평균 0, 표준편차 1로 변환 | 최소값0, 최대값 1로 변환 |
| 분포 | 원본데이터 분포 유지, 기준점만 0으로변함 | 원본데이터 분포 유지, 범위를 [0,1] 사이로 압축(비율 유지한 상태로 압축) |
| 사용 시점 | 평균/표준편차 의미 있을 때, 피쳐가 정규분포를 따를 때 | 값의 절대 크기가 중요할 때, 피쳐의 분포를 모를 때 |
| 이상치 | 비교적 강함 | 매우 취약함 |
| 활용 알고리즘 | KNN(K-최근접 이웃), K-Means 클러스터링(PCA), SVM (서포트 벡터 머신), 로지스틱 회귀 / 선형 회귀 | KNN(K-최근접 이웃), 신경망 (Neural Networks) |
K-최근접 이웃이라고 부르며, 머신러닝에서 사용되는 분류알고리즘

유클리드 거리와 맨해튼 거리가 있는데 일반적으로 유클리드 거리를 가장 많이 사용함.(직선 거리)
K-NN 알고리즘은 ‘거리’ 기반이므로 → 해당 거리의 기준을 맞춰주는 정규화 또는 표준화 과정이 필수이다.
상관관계는 인과관계가 아니다
상관계수
: 두 변수 사이의 관계를 숫자로 나타낸 값
상관관계는 두 연속형 변수가 함께 움직이는 정도를 확인할 수 있을 뿐 X가 변할 때 Y가 얼마나 변하는지는 알 수 없다. 이것을 확인하기 위해 회귀 모형을 사용한다.
y = f(x) 형태의 함수를 통해 X가 변하면 Y가 어떻게 변하는지 수식으로 모델링하는 방법. f(x)가 꼭 직선일 필요는 없다.
y = ax + b + ε
회귀분석이란 데이터를 가장 잘 설명하는 f(x)를 찾는 과정으로 f(x)의 형태를 결정하는 a, b를 회귀 계수라고 한다.
잔차: 모델이 틀린 정도

우리가 구한 은 X와 Y 사이에 실제로 관계가 있다고 말할 수 있을까?
최소제곱법으로 찾은 직선이 모든 데이터를 완벽히 설명할 수는 없다.
- 회귀모형은 항상 오차항 ε가 존재함
- 회귀선은 모든 점을 정확히 예측하는 것이 아니라 전체적인 평균 패턴을 설명하는 선
- 회귀식은 '추정'일 뿐 얼마나 좋은지 판단하려면 별도의 평가 지표가 필요하다.
RSS는 잔차 제곱의 합이기 때문에 300개의 데이터와 3개의 데이터의 RSS 값이 같을 수 있다.
오차만 줄이는 게 아니라 데이터의 전체적인 변화를 얼마나 잘 설명하고 있는지를 숫자로 보여주는 지표

결정계수의 범위는 0 ~ 1이며 1에 가까울수록 모델이 데이터를 잘 설명함.
단순선형회귀의 은 X-Y 변수의 상관계수의 제곱과 동일하다.
여러개의 독립변수를 고려한 선형회귀

해결방법
회귀선이 그려졌다고 끝이 아니라 그 결과를 믿어도 되는지 확인할 필요가 있다.
신뢰구간, 신뢰수준에서 z-score를 사용할 때 각각이 무엇을 뜻하는지 이해가 안갔다. 다시 한 번 정리해보면서 조금 더 명확하게 개념을 정리한 것 같지만 시간이 지나면 또 금방 헷갈리고 이해가 잘 안갈수도 있을 것 같다. 그만금 온 마음으로 온전히 이해가 되는건 아닌것 같다는 생각이 든다.
표준화와 정규화에 대해서 개념을 명확히 집고 갔다. 이전에는 standardscaler나 minmax scaler 둘다 정규화하는 거라고 생각을 했었다. 하지만 standardscaler는 표준화라는 표현이 맞으며 평균이 0이면 표준편차가 1인 값으로 표준화를 하는 것이다.
여기에서 표준편차가 1이라 함은 서로 다른 피처들의 원본 데이터의 퍼짐의 단위가 모두 제각각이어서 피처들을 각각의 표준편차를 기준으로 단위를 재 조정한다고 이해하면 된다. 그래서 어떤 값은 3kg 떨어져 있고 어떤 값은 200m 떨어져 있는 것이 아니라 서로 다른 단위를 가진 피처들을 1σ, 2σ 이런식으로 동일한 표준편차 단위로 맞추는 것이다.
이로 인해 모델 학습시 특정 값에 지나치게 편중되지 않게 한다.