확실히 알아두면 만사가 편해지는 머신러닝 10가지 알고리즘
→ 원문
[아티클 요약 및 주요 내용]
요약 : 아티클의 핵심 내용을 요약해보세요.
주요 포인트 : 아티클에서 강조하는 주요 포인트는 무엇인가요?
[핵심 개념 및 용어 정리]
- 핵심 개념: 아티클에서 언급된 중요한 개념을 정리하세요.
- 용어 정리: 생소하거나 중요한 용어의 정의를 적어보세요.
핵심 개념:
선형 회귀(Linear Regression)
로지스틱 회귀(Logistic Regression)
K-최근접 이웃(KNN)
나이브 베이즈(Naive Bayes)
결정 트리(Decision Tree)
랜덤 포레스트(Random Forest)
XG부스트(XGBoost)
라이트GBM(LightGBM)
K-평균 군집화(K-Means Clustering)
주성분 분석(PCA)
선형 회귀 (Linear Regression)
종속변수와 독립변수 간의 선형 관계를 모델링하는 알고리즘. 예측 값은 직선 형태로 나타냄.
로지스틱 회귀 (Logistic Regression)
이진 분류 문제에서 각 클래스의 확률을 예측. 시그모이드 함수를 사용하여 예측 값을 0과 1 사이의 확률로 변환.
K-최근접 이웃 (KNN)
새로운 데이터 포인트를 K개의 가장 가까운 이웃과 비교하여 분류하거나 예측.
나이브 베이즈 (Naive Bayes)
확률적 분류 모델. 각 특성이 독립적이라는 가정 하에 조건부 확률을 계산.
결정 트리 (Decision Tree)
데이터를 여러 조건으로 분할하여 예측을 수행하는 트리 구조.
랜덤 포레스트 (Random Forest)
여러 개의 결정 트리를 결합하여 예측 성능을 개선하는 앙상블 모델
서포트 벡터 머신 (SVM)
데이터를 가장 잘 분리하는 초평면을 찾는 분류 모델. 커널 기법을 통해 비선형 분리도 가능.
XGBoost
부스팅 기법을 활용한 모델로, 여러 약한 모델을 결합하여 강한 예측 모델을 생성.
LightGBM
XGBoost의 개선된 버전으로, 빠르고 메모리 효율적인 학습을 지원
K-means
데이터를 K개의 클러스터로 분할하는 비지도 학습 알고리즘.
선형 회귀 (Linear Regression)
- 회귀선: 데이터를 가장 잘 표현하는 직선
- 최소제곱법: 예측 값과 실제 값 간의 차이의 제곱을 최소화하는 방법
로지스틱 회귀 (Logistic Regression)
- 시그모이드 함수: 확률 값으로 변환하는 함수
- 로지스틱 함수: 출력값을 0과 1 사이로 제한하는 함수
K-최근접 이웃 (KNN)
- 유클리드 거리: 두 점 간의 거리 측정 방법
- K 값: 이웃의 수
나이브 베이즈 (Naive Bayes)
- 베이즈 정리: 사후 확률을 계산하는 공식
- 조건부 확률: 주어진 조건 하에서의 확률
결정 트리 (Decision Tree)
- 루트 노드: 트리의 최상위 노드
- 리프 노드: 예측 결과가 나오는 최하위 노드
- 정보 이득: 데이터를 분할할 때의 효율성 측정 기준
랜덤 포레스트 (Random Forest)
- 배깅(Bagging): 데이터 샘플을 중복 허용으로 여러 번 샘플링하여 모델을 학습
- 앙상블 학습: 여러 모델을 결합하여 성능 향상
서포트 벡터 머신 (SVM)- 초평면: 데이터를 분리하는 기준이 되는 선
- 마진: 초평면에서 각 데이터 포인트까지의 거리
XGBoost
- 부스팅: 여러 약한 모델을 순차적으로 학습시키는 기법
- 정규화: 모델의 과적합을 방지하기 위한 방법
LightGBM
- 리프 우선 학습: 트리에서 리프 노드를 먼저 확장하는 학습 방식
- 히스토그램 기반: 데이터를 효율적으로 처리하는 방법
K-means
- 클러스터: 비슷한 데이터를 그룹화한 집합
- 유클리드 거리: K-최근접과 동일
[(선택)실무 적용 사례]
아티클에서 다룬 분석 방법을 실제 업무에서 어떻게 적용할 수 있을까요?
관련 사례를 찾아보거나, 가상의 시나리오를 만들어보세요.
생략 → 핵심 개념 정리하는 데 시간을 다 썼음…
해당 아티클을 읽고 새롭게 알게 된 것, 앞으로 나의 방향성에 대한 회고가 있다면 적어주세요. 인사이트가 가장 중요합니다.