데이터분석 공장 529

데이터분석 공장 529

Machine Learning(머신 러닝) 대립항 기본 개념 정리하기

공장장·2024년 9월 14일

PyTorch tensorflow 과소적합 과적합 머신러닝 분류 분산 비지도학습 지도학습 편향 회귀

# Machine Learning | 머신러닝

목록 보기

1/8

📌 개념 정리

Explicit Programming vs Machine Learning
- Explicit Programming: 사람이 일일이 규칙을 만들어서 코딩하는 방식.
  - 예를 들어, 이메일에 "할인"이라는 단어가 있으면 스팸으로 분류.
- Machine Learning: 컴퓨터가 데이터에서 규칙을 스스로 찾는 방식.
  - 예를 들어, 스팸 이메일 데이터를 주면 컴퓨터가 자동으로 스팸을 판별하는 규칙을 찾아냄.

Supervised Learning(지도 학습) vs Unsupervised Learning(비지도 학습)
- Supervised Learning: 답이 있는 데이터로 학습.
  - 라벨 O 알고리즘 학습
  - 데이터 셋 구축에 인력↑, 비용↑
  - 예를 들어, 타이타닉 데이터에서 '생존'이나 '사망' 같은 결과를 알려주고, 이런 패턴을 학습해서 새로운 승객이 생존할지 예측.
- Unsupervised Learning: 답이 없는 데이터로 패턴을 찾음.
  - 라벨 X 알고리즘 학습
  - 데이터 셋 구축에 인력↓, 비용↓
  - 클러스터링 분야에서만 활용
  - but 자연처리 분야에서 OpenAI가 해당 방식으로 GPT 학습하며 급부상
  - 예를 들어, 뉴스 기사들을 비슷한 주제끼리 묶어주는 클러스터링처럼, 컴퓨터가 알아서 분류.

Classification(분류) vs Regression(회귀)
- Classification: 데이터를 특정 카테고리로 나누는 것. '분류를 잘하는 것이 중요'
  - 종속변수 = 범주형
  - 예를 들어, "이 메일은 스팸인가 아닌가?"처럼 두 가지 중 하나로 분류.
- Regression: 데이터를 가지고 숫자나 값을 예측. '값을 잘 맞추는 것이 중요'
  - 종속변수 = 연속형
  - 예를 들어, 집값이나 내일의 온도처럼 구체적인 값을 맞추는 것.

Overfitting(과적합) vs Underfitting(과소적합)
- Underfitting: 모델이 너무 단순해서 데이터를 잘 설명하지 못하는 상황.
  - 예를 들어, 너무 단순한 규칙만 사용하면 결과가 안 맞음.
  - 해결책: 모델의 복잡도를 추가한다. 예) 파라미터를 추가한다. 트리를 좀 더 깊게(Decision Tree)
- Overfitting: 모델이 너무 복잡해서 학습 데이터에는 잘 맞지만 새로운 데이터에는 잘 맞추지 못함.
  - 예를 들어, 시험 문제를 외웠지만 새로운 문제가 나오면 틀리는 것처럼.
  - 해결책: 파라미터를 줄이거나, 삭제해서 모델을 단순화, 정규화(regularization)

Bias(편향) vs Variance(분산)
- 이상적인 모델 = 정확도↑ & Bias(차이)/Variance(변동성)↓
- but Bias(차이)와 Variance(변동성)는 Trade off 관계 (반비례 관계)
- Under fitting = Bias↑ Variance↓
- Over fitting = Bias↓ Variance↑
- ∴ 차이와 변동성이 모두 작은 최적의 모델을 찾는 것이 중요
- Bias(편향): 모델이 데이터를 충분히 학습하지 못해 발생하는 오류.
  - 편향 = 예측값과 실제값의 차이
- Variance(분산): 모델이 학습 데이터에 너무 맞춰져 있어서 새로운 데이터에서는 엉뚱하게 예측하는 것.
  - 분산 = 모델의 예측값 변동성

TensorFlow vs Pytorch
- 둘 다 딥러닝을 쉽게 구현할 수 있는 도구들.
- TensorFlow: 구글에서 만든 도구로 기능이 풍부하지만 조금 복잡할 수 있음.
- Pytorch: 더 직관적이고 코드가 간결해서 연구자들이 많이 사용함.

연장 대신 키보드 뚱땅거리며 분석하는 '데이터분석 공장 529'

다음 포스트

Linear Regression(Torch) 학습을 위한 경사 하강법 용어 정복🔥

0개의 댓글