[The Machine Learning] 1장: 소개

김영준·2025년 12월 6일

[The Machine Learning]

목록 보기
1/1

랩실에서 논문을 쓰면서, 대학원을 준비하면서 논문들도 많이 읽게되는 중이다. AI에 대해서는 학부 수업에서 배운내용들, 버클리대학의 CS188 우리 아주 혐오스러운(?) 로봇친구와 함께 열심히 배웠다.

내용도 재밌고 얻어가는 부분도 많았지만 최근 논문을 읽으며 느끼는 문제점들이 생겼다.

    1. 수식에 대한 이해가 어렵다. -> 기호에 대해서나 Method파트에 수식이해를 하는데 많은 시간을 쏟아야한다.
    1. 기억이 잘 나지 않는 파트들이 존재한다. 단적인 예로 Parametric Model이라는 단어가 나왔는데 정의를 찾아보고 아!하고 느꼈지만 이런 개념들에 대한 이해가 조금 부족하다고 생각한다.
    1. 논문을 쓰려면 이런 학술적인 문장들을 사용함에 익숙해져야한다. -> 구어체에 익숙함에서 벗어나야한다.

그래서 시간이 있는 김에

Kevin P. Murphy / The Machine Learning : A Probabilistic Perspective

책으로 이론을 다지고 이해해가려한다.

오늘은 1장 소개 파트에 나온 내용들을 간단히 정리하려 한다.


1. Introduction: 왜 '확률'인가?

기존의 머신러닝이 단순히 입력 xx를 출력 yy로 매핑하는 함수 최적화 문제로 보일 수 있지만, Murphy는 첫 장부터 불확실성(Uncertainty)을 강조한다.

머신러닝은 데이터로부터 패턴을 학습하여, 미지의 데이터에 대한 불확실성을 확률 분포 p(yx)p(y|x)로 모델링하는 과정이다.

2. Supervised Learning (지도 학습)

2.1 Classification (분류)

출력 yy가 이산적인 경우다.
Insight: 단순히 정답 클래스를 맞추는 것(y^\hat{y})보다, 모델이 자신의 예측을 얼마나 확신하는지를 아는 것이 의사결정에 훨씬 중요하다.

2.2 Regression (회귀)

출력 yy가 연속적인 경우다. 입력 변수와 출력 변수 간의 관계를 수식으로 모델링한다.
(예: y=f(x)+ϵy = f(x) + \epsilon)

3. Unsupervised Learning (비지도 학습)

정답 yy 없이, 입력 xx만 가지고 데이터의 숨겨진 구조(Latent Structure)를 찾아내는 과정이다.
💡 지도 학습보다 문제는 훨씬 어렵지만(Ill-posed), 레이블링 비용이 들지 않아 가용 데이터가 압도적으로 많다.

3.1 Discovering Clusters

데이터를 의미 있는 그룹으로 묶는다.잠재 변수 zz이산적(Discrete)이라는 특징이 있다. (예: K-means, GMM)

3.2 Discovering Latent Factors

고차원 데이터를 저차원으로 압축하여 숨겨진 요인을 찾는다.잠재 변수 zz연속적(Continuous)이다. (예: PCA, Autoencoder)활용: 차원 축소(Dimensionality Reduction), 시각화, 노이즈 제거.

3.3 Discovering Graph Structure

변수들 간의 조건부 독립성이나 인과 관계를 그래프(Edge)로 표현한다. (Sparse Graphical Model 등)

3.4 Matrix Completion

넷플릭스 추천 시스템처럼 행렬의 빈칸(Missing Value)을 채우는 문제다. Low-rank approximation 이론과 밀접하게 연관된다.

4. Basic Concepts (핵심 이론) 🔥

4.1 Parametric vs Non-parametric Models

가장 많이 오해하는 개념 중 하나다.

비교 항목Parametric ModelNon-parametric Model
정의파라미터 수(θ\theta)가 데이터 크기(NN)와 무관하게 고정데이터가 많아질수록 파라미터(혹은 복잡도)가 함께 증가
학습/추론학습 후 θ\theta만 남기고 데이터는 버릴 수 있음 (빠른 추론)추론 시에도 데이터를 참조해야 하는 경우가 많음 (느린 추론, 메모리\uparrow)
복잡도모델의 용량(Capacity)이 제한적임데이터가 충분하면 어떤 복잡한 함수도 근사 가능 (High Capacity)
장점가볍고 빠르며, 데이터가 적을 때도 비교적 안정적임유연성(Flexibility)이 매우 높아, 가정(Assumption)을 최소화할 수 있음
단점복잡한 패턴을 포착하지 못할 수 있음 (High Bias 위험)데이터가 많아지면 계산 비용이 급증함 (Curse of Dimensionality에 취약)
대표 예시Linear Regression, Logistic Regression, MLP (Deep Learning)K-Nearest Neighbors (KNN), SVM (RBF Kernel), Gaussian Process

4.2 The Curse of Dimensionality (차원의 저주)

차원(DD)이 늘어날수록 공간의 부피가 기하급수적으로 늘어나, 데이터의 밀도가 매우 희소(Sparse)해지는 현상이다.
Insight: 고차원에서는 "거리(Distance)"의 개념이 무의미해진다. 따라서 KNN 같은 거리 기반 알고리즘이 망가지게 된다. 이를 해결하려면 강력한 Inductive Bias(가정)를 주입하거나 차원 축소를 해야 한다.

4.3 Overfitting & Model Selection

Overfitting: 모델이 학습 데이터의 노이즈까지 암기하여 Generalization(일반화) 성능이 떨어지는 현상이다. (Capacity > Data Complexity)
Model Selection: 이를 막기 위해 Validation Set을 나누거나 Cross-Validation을 수행한다.핵심은 Bias-Variance Trade-off를 조절하는 것이다.

4.4 No Free Lunch Theorem (NFL)

-> 나는 Free Lunch is over로 알고 있는데 같은 것인 것 같다.
"모든 문제에 대해 항상 성능이 우월한 단 하나의 만능 모델은 존재하지 않는다."
결론: 따라서 연구자는 문제 도메인(이미지, 텍스트, 그래프 등)에 적합한 가정(Assumption)과 Inductive Bias를 모델에 적절히 심어줘야 한다.


다음 포스팅에서는 Chapter 2. Probability 내용을 다뤄보겠다. 👋

profile
대학원이 가고 싶은 컴쟁이

0개의 댓글