데이터분석 공장 529
로그인
데이터분석 공장 529
로그인
Machine Learning(머신 러닝) 대립항 기본 개념 정리하기
공장장
·
2024년 9월 14일
팔로우
0
PyTorch
tensorflow
과소적합
과적합
머신러닝
분류
분산
비지도학습
지도학습
편향
회귀
# Machine Learning | 머신러닝
목록 보기
1/8
📌 개념 정리
Explicit Programming vs Machine Learning
Explicit Programming: 사람이 일일이 규칙을 만들어서 코딩하는 방식.
예를 들어, 이메일에 "할인"이라는 단어가 있으면 스팸으로 분류.
Machine Learning: 컴퓨터가 데이터에서 규칙을 스스로 찾는 방식.
예를 들어, 스팸 이메일 데이터를 주면 컴퓨터가 자동으로 스팸을 판별하는 규칙을 찾아냄.
Supervised Learning(지도 학습) vs Unsupervised Learning(비지도 학습)
Supervised Learning: 답이 있는 데이터로 학습.
라벨 O 알고리즘 학습
데이터 셋 구축에 인력↑, 비용↑
예를 들어, 타이타닉 데이터에서 '생존'이나 '사망' 같은 결과를 알려주고, 이런 패턴을 학습해서 새로운 승객이 생존할지 예측.
Unsupervised Learning: 답이 없는 데이터로 패턴을 찾음.
라벨 X 알고리즘 학습
데이터 셋 구축에 인력↓, 비용↓
클러스터링 분야에서만 활용
but 자연처리 분야에서 OpenAI가 해당 방식으로 GPT 학습하며 급부상
예를 들어, 뉴스 기사들을 비슷한 주제끼리 묶어주는 클러스터링처럼, 컴퓨터가 알아서 분류.
Classification(분류) vs Regression(회귀)
Classification: 데이터를 특정 카테고리로 나누는 것. '분류를 잘하는 것이 중요'
종속변수 = 범주형
예를 들어, "이 메일은 스팸인가 아닌가?"처럼 두 가지 중 하나로 분류.
Regression: 데이터를 가지고 숫자나 값을 예측. '값을 잘 맞추는 것이 중요'
종속변수 = 연속형
예를 들어, 집값이나 내일의 온도처럼 구체적인 값을 맞추는 것.
Overfitting(과적합) vs Underfitting(과소적합)
Underfitting: 모델이 너무 단순해서 데이터를 잘 설명하지 못하는 상황.
예를 들어, 너무 단순한 규칙만 사용하면 결과가 안 맞음.
해결책: 모델의 복잡도를 추가한다. 예) 파라미터를 추가한다. 트리를 좀 더 깊게(Decision Tree)
Overfitting: 모델이 너무 복잡해서 학습 데이터에는 잘 맞지만 새로운 데이터에는 잘 맞추지 못함.
예를 들어, 시험 문제를 외웠지만 새로운 문제가 나오면 틀리는 것처럼.
해결책: 파라미터를 줄이거나, 삭제해서 모델을 단순화, 정규화(regularization)
Bias(편향) vs Variance(분산)
이상적인 모델 = 정확도↑ & Bias(차이)/Variance(변동성)↓
but Bias(차이)와 Variance(변동성)는 Trade off 관계 (반비례 관계)
Under fitting = Bias↑ Variance↓
Over fitting = Bias↓ Variance↑
∴ 차이와 변동성이 모두 작은 최적의 모델을 찾는 것이 중요
Bias(편향): 모델이 데이터를 충분히 학습하지 못해 발생하는 오류.
편향 = 예측값과 실제값의 차이
Variance(분산): 모델이 학습 데이터에 너무 맞춰져 있어서 새로운 데이터에서는 엉뚱하게 예측하는 것.
분산 = 모델의 예측값 변동성
TensorFlow vs Pytorch
둘 다 딥러닝을 쉽게 구현할 수 있는 도구들.
TensorFlow: 구글에서 만든 도구로 기능이 풍부하지만 조금 복잡할 수 있음.
Pytorch: 더 직관적이고 코드가 간결해서 연구자들이 많이 사용함.
공장장
연장 대신 키보드 뚱땅거리며 분석하는 '데이터분석 공장 529'
팔로우
다음 포스트
Linear Regression(Torch) 학습을 위한 경사 하강법 용어 정복🔥
0개의 댓글
댓글 작성