선형회귀 :독립변수와 종속변수 간의 선형 관계를 전제로 한 모델입니다. 구현 및 이해가 용이한 장점이 있음
오버피팅 : 모델이 학습셋에 지나치게 잘 맞도록 학습되어서 새로운 데이터에 대한 예측력이 떨어지는 현상을 의미
언더피팅: 과소적합이라고도 하며, 모델이 충분히 학습되지 않아 훈련셋에 대해서도 좋은 예측력을 내지 못하는 상황
로지스틱 회귀 :선형 회귀 분석을 기반으로 한 모델로, 연속형 종속변수가 아닌 이진분류 문제를 위한 알고리즘
피처 엔지니어링 : 기존 변수에서 더 나은 변수를 도출해내는 작업
PCA : Principal Component Analysis의 약자로 주성분 분석이라고도 부름
다중공산성 문제 : 변수 간의 강한 상관관계가 있을 때 발생하는 문제 선형 모델은 독립변수 간의 독립성을 전제로 하기 때문에 다중공산성 문제를 해결해주는 것이 좋음
원-핫인코딩 : 범주 형태의 변수를 숫자로 표현하는 방법, 변수에 속해 있는 고유값에 대한 새로운 변수들을 반들어 1과 0으로 표현함
아웃라이어 : 평균치에서 크게 벗어나는 데이터를 의미
스케일링 : 독립변수의 범위를 동일한 수준으로 만드는 데 사용되는 방법
- 표준화 스케일링 : 평균이 0이 되고, 표준편차가 1이되도록 데이터를 고르게 분포시키는 데 사용
- 로버스트 스케일링 : 데이터에 아웃라이어가 존재하고, 그 영향력을 그대로 유지하고 싶을 때 사용
- 최소-최대 스케일링 : 데이터 분포의 특성을 최대한 그대로 유지하고 싶을 때 사용
- 정규화 스케일링 : 행기준의 스케일링이 필요할 때 사용하나, 실제로 거의 사용하지 않음
결측치 : 데이터가 비어있는 값
나이브 베이즈 분류기 : 조건부확률을 기반으로 하는 모델로, 자연어와 같이 변수의 개수가 많을 때 유용
1종 오류 : 실제 음성인 것을 양성으로 예측하는 오류
2종 오류 : 실제 양성인 것을 음성으로 예측하는 오류
사후확률 : 사건 A와 B가 있을 때, 사건 A가 발생한 상황에서 사건 B가 발생할 확률
사전확률 : 사건 A와 상관없이 사건 B가 발생할 확률
베이즈 정리 : 두 확률 변수의 사전확률과 사후확률 사이의 관계를 나타내는 정리로, 사후확률을 구할 때 쓰임
결정 트리 : 트리 모델의 가장 기본 형태로, 데이터의 특성을 고려하여 데이터를 분류해나가는 방식
지니 인덱스와 교체 엔트로피: 노드의 순도를 평가하는 방법, 노드의 순도가 높을수록 지니 및 엔트로피 값은 낮아짐
교차 검증 : 다양한 훈련셋/시험셋을 통하여 모델에 더 신뢰할 수 있는 평가를 하는 방법
앙상블: 여러 모델을 만들고 각 예측값들을 투표/평균 등으로 통합하여 더 정확한 예측을 도모하는 방법
부스팅 알고리즘: 부스팅은 랜덤 포레스트에서 그다음 세대로 진화하게 되는 중요한 개념. 랜덤 포레스트에서는 각각의 트리를 독립적으로, 즉 서로 관련 없이 만드는 반면, 부스팅 알고리즘에서는 트리를 순차적으로 만들면서 이전 트리에서 학습한 내용이 다음 트리를 만들 때 반영
경사하강법: 경사 부스팅의 핵심 개념 중 하나로 모델이 어떻게 최소 오차가 되는 매개변수들을 학습하는지에 대한 방법론, 오차식에 대한 미분계수를 통해 매개변수의 이동 방향과 보폭을 결정함. 보폭은 러닝 레이트라는 하이퍼파라미터로 조절이 가능
리프 중심 트리 분할 : XGBoost와 LightGBM의 중요한 차이점으로, 동일한 레벨로 노드를 확장하지 않고 불규칙적으로 노드를 뻗어나가기 때문에 더욱 빠르고 높은 예측율을 보이나 오버피팅을 유의해야함
L1,L2 정규화 : 둘 다 매개변수에 패널티를 가해서 그 영향력을 감소시키는 방법으로, 오버피팅을 방지하는 목적으로 쓰임, L1 정규화는 일부 매개변수가 0이 되도록 패널티를 가할 수 있기 때문에 피처 셀렉션 효과도 있음
ROC곡선과 AUC : 이진분류 모델을 평가하는 방법으로, 기준점에 영향을 받지 않기 때문에 여러 모델을 비교할 때 사용, AUC는 ROC 곡선의 아래 면적을 의미하고, 0.5~ 1 사이의 값을 지니며 높을수록 좋은 모델
K-mean 군집화 : 데이터를 거리 기반으로 측정하여 가까이 있는 데이터들을 하나로 묶어주는 방법, 예측하려는 종속변수가 존재하지 않을 때 사용하는 비지도 학습의 대표적인 알고리즘
엘보우 기법: 최적의 클러스터 개수를 확인하는 방법, 클러스터의 중점과 각 데이터 간의 거리를 기반으로 계산함
이너셔 : 각 클러스터의 중점과 그에 속한 데이터 간의 거리, 값이 작을수록 잘 뭉쳐진 클러스터를 의미
실루엣 계수 : 엘로우 기법과 같이 최적의 클러스터 수를 찾는 방법으로, 엘보우 기법에서 적한 클러스터 수를 찾지 못했을 때 대안으로 사용할 수 있음. 엘보우 기법보다 계산 시간이 오래 걸리는 단점이 있음
PCA : 변수의 특성을 최대한 유지하면서 그 수를 줄이는 차원 축소방법으로 시각화를 위한 용도로 사용하기도 하고, 모델링 시간 단축이나 오버피팅 방지의 목적으로 사용할 수 있음. 차원 축소에는 변수 선택과 변수 추출이 있음, 변수 선택은 특정 변수만을 선택함으로써 데이터의 차원을 줄이는 것이고, 변수 추출은 기존의 변수들을 이용하여 새로운 변수를 생성. PCA는 새로운 변수를 만드는 것으로 변수 추출에 해당
차원 축소: 변수 2개면 2차원 그래프로, 세 개면 3차원 그래프로 나타낼 수 있음. 데이터의 차원은 변수의 개수와 직결되고 차원축소는 변수의 수를 줄여 데이터의 차원을 축소함