Machine Learning(머신 러닝) 대립항 기본 개념 정리하기

공장장·2024년 9월 14일

📌 개념 정리

  • Explicit Programming vs Machine Learning
    • Explicit Programming: 사람이 일일이 규칙을 만들어서 코딩하는 방식.
      • 예를 들어, 이메일에 "할인"이라는 단어가 있으면 스팸으로 분류.
    • Machine Learning: 컴퓨터가 데이터에서 규칙을 스스로 찾는 방식.
      • 예를 들어, 스팸 이메일 데이터를 주면 컴퓨터가 자동으로 스팸을 판별하는 규칙을 찾아냄.

  • Supervised Learning(지도 학습) vs Unsupervised Learning(비지도 학습)
    • Supervised Learning: 답이 있는 데이터로 학습.
      • 라벨 O 알고리즘 학습
      • 데이터 셋 구축에 인력↑, 비용↑
      • 예를 들어, 타이타닉 데이터에서 '생존'이나 '사망' 같은 결과를 알려주고, 이런 패턴을 학습해서 새로운 승객이 생존할지 예측.
    • Unsupervised Learning: 답이 없는 데이터로 패턴을 찾음.
      • 라벨 X 알고리즘 학습
      • 데이터 셋 구축에 인력↓, 비용↓
      • 클러스터링 분야에서만 활용
      • but 자연처리 분야에서 OpenAI가 해당 방식으로 GPT 학습하며 급부상
      • 예를 들어, 뉴스 기사들을 비슷한 주제끼리 묶어주는 클러스터링처럼, 컴퓨터가 알아서 분류.

  • Classification(분류) vs Regression(회귀)
    • Classification: 데이터를 특정 카테고리로 나누는 것. '분류를 잘하는 것이 중요'
      • 종속변수 = 범주형
      • 예를 들어, "이 메일은 스팸인가 아닌가?"처럼 두 가지 중 하나로 분류.
    • Regression: 데이터를 가지고 숫자나 값을 예측. '값을 잘 맞추는 것이 중요'
      • 종속변수 = 연속형
      • 예를 들어, 집값이나 내일의 온도처럼 구체적인 값을 맞추는 것.

  • Overfitting(과적합) vs Underfitting(과소적합)
    • Underfitting: 모델이 너무 단순해서 데이터를 잘 설명하지 못하는 상황.
      • 예를 들어, 너무 단순한 규칙만 사용하면 결과가 안 맞음.
      • 해결책: 모델의 복잡도를 추가한다. 예) 파라미터를 추가한다. 트리를 좀 더 깊게(Decision Tree)
    • Overfitting: 모델이 너무 복잡해서 학습 데이터에는 잘 맞지만 새로운 데이터에는 잘 맞추지 못함.
      • 예를 들어, 시험 문제를 외웠지만 새로운 문제가 나오면 틀리는 것처럼.
      • 해결책: 파라미터를 줄이거나, 삭제해서 모델을 단순화, 정규화(regularization)

  • Bias(편향) vs Variance(분산)
    • 이상적인 모델 = 정확도↑ & Bias(차이)/Variance(변동성)↓
    • but Bias(차이)와 Variance(변동성)는 Trade off 관계 (반비례 관계)
    • Under fitting = Bias↑ Variance↓
    • Over fitting = Bias↓ Variance↑
    • ∴ 차이와 변동성이 모두 작은 최적의 모델을 찾는 것이 중요
    • Bias(편향): 모델이 데이터를 충분히 학습하지 못해 발생하는 오류.
      • 편향 = 예측값과 실제값의 차이
    • Variance(분산): 모델이 학습 데이터에 너무 맞춰져 있어서 새로운 데이터에서는 엉뚱하게 예측하는 것.
      • 분산 = 모델의 예측값 변동성

  • TensorFlow vs Pytorch
    • 둘 다 딥러닝을 쉽게 구현할 수 있는 도구들.
    • TensorFlow: 구글에서 만든 도구로 기능이 풍부하지만 조금 복잡할 수 있음.
    • Pytorch: 더 직관적이고 코드가 간결해서 연구자들이 많이 사용함.
profile
연장 대신 키보드 뚱땅거리며 분석하는 '데이터분석 공장 529'

0개의 댓글