고유분해는 정방행렬에 대해서만 분해가 가능하지만, 특잇값 분해는 행과 열의 크기가 다른 행렬도 분해가 가능하다.
LDA는 같은 클래스의 데이터는 최대한 근접해서, 다른 클래스의 데이터는 최대한 떨어뜨리는 축 매핑을 수행한다
차원 축소를 통해 좀 더 데이터를 잘 설명할 수 있는 잠재적(Latent)인 요소를 추출
사이킷런의 결정 트리 및 결정 트리 기반의 앙상블 알고리즘은 분류 뿐만 아니라 회귀도 가능하다.
손실 함수에 𝛼값으로 패널티를 부여해 회귀 계수 값의 크기를 감소시켜 과적합을 개선하는 방식을 규제(Regularization)라고 한다.
다항 회귀는 회귀식이 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 형태로 표현되는 것
LinearRegression 클래스는 예측값과 실제값의 RSS를 최소화하는 OLS(Ordinary Least Squares) 추정 방식으로 구현한 클래스
RSS : 각 데이터 포인트의 오류 값(𝐸𝑟𝑟𝑜𝑟𝑖)의 제곱을 구해서 더하는 방식
회귀는 여러 개의 독립변수(X)와 한 개의 종속변수(y) 간의 상관관계를 모델링하는 기법을 통칭한다.
여러 개의 약한 학습기를 순차적으로 학습, 예측한 데이터나 학습 트리에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식
앙상블 학습을 통한 분류는 여러 개의 분류기(Classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 일컫는다.
결정트리(Decision Tree)는 쉽고 유연하게 적용될수 있는 분류 알고리즘이다.
데이터 전처리는 분석 결과 / 인사이트와 모델 성능에 직접적인 영향을 미치는 과정이기 때문에 중요하게 다루어지는 과정이다.
모델이 학습할 데이터: 훈련 세트(training set), 모델의 성능을 테스트하기 위해 사용할 데이터: 테스트 세트(test set)