Bias-Variance Trade-off는 Supervised learning에서 error를 처리할 때 중요하게 생각해야 하는 요소이다.모델을 학습시킬 때, 우리의 목표는 bias와 variance가 모두 최소화되도록 하는 것이다. 그러나 일반적으로 bias와 va
일반적으로 모델을 만들 때에는 데이터를, training set과 test set으로 나누어 사용한다. training set을 반복적으로 학습함으로써 실제 데이터와 가장 유사한 결과를 만들어 내는 것을 목표로 하고 있다. training set과 test set이 비
앙상블 기법이란 여러개의 분류 모델을 생성하고 그 예측값을 결합하여 더욱 정확한 결과를 도출해내는 기법을 말한다.이는 하나의 강력한 모델을 생성하는것이 아닌 보다 약한 모델 여러개를 조합하여 더 정확한 예측을 하는데 도움을 주는 방식이다.앙상블 기법은 일반적으로 보팅(
K-Means나 Hierarchical 클러스터링의 경우 군집간의 거리를 이용하여 클러스터링을 하는 방법인데, DBSCAN은 점이 세밀하게 몰려 있어서 밀도가 높은 부분을 클러스터링 하는 방식이다. 쉽게 설명하면, 어느점을 기준으로 반경 x내에 점이 n개 이상 있으면
데이터에 label이 붙어 있다면 데이터와 label을 기반으로 예측이나 분류를 수행하는 모델을 만들 수 있고 이를 지도학습이라고 한다. 그러나 실제로는 label이 없는 경우가 더 많다. 비지도 학습은 label이 없는 데이터 안에서 패턴과 구조를 발견하는 머신러닝의
차원의 저주란 차원이 증가하면서 학습데이터 수가 차원 수보다 적어져서 성능이 저하되는 현상을 말한다. 차원이 증가할수록 변수가 증가하고, 개별 차원 내에서 학습할 데이터 수가 적어진다.하지만 변수가 증가한다고 반드시 차원의 저주가 발생하는 것은 아니다. 관측치보다 변수
Resampling Methods란 training data의 서로 다른 부분 집합을 사용하여 동일한 통계 모델을 여러번 fitting 하는 것을 의미한다.Resampling Methods는 모델 평가(model assessment), 모델 선택(model select
로지스틱 회귀(Logistic Regression)는 회귀를 사용하여 데이터가 어떤 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도 학습 알고리즘이다.스팸 메일 분류기 같은 예시를 생각하면 쉽
다중 선형 회귀(Multiple Linear Regression, MLR)는 여러 개의 독립 변수와 하나의 종속 변수의 선형 관계를 모델링하는 것이다. 기본적인 원리는 단순 선형 회귀와 비슷하지만 차이점이라면 종속변수의 개수가 2개 이상이므로 회귀 방정식에 차이가 있다. 단순 선형회귀에서의 회귀 방정식은 $y=b{0} + b{1}x$ 로 표현할 수 있다...
머신러닝의 목적은 데이터의 알려진 속성들을 학습하여 예측 모델을 만드는데 있다. 이때 찾아 낼 수 있는 가장 직관적이고 간단한 모델은 선(line)이다. 선형회귀란 데이터를 가장 잘 대변하는 최적의 선을 찾은 과정이다. 이러한 선은 주어져 있지 않은 점의 함수값을 보간
일반적으로 모델을 만들 때에는 데이터를, training set과 test set으로 나누어 사용한다. training set을 반복적으로 학습함으로써 실제 데이터와 가장 유사한 결과를 만들어 내는 것을 목표로 하고 있다. 트레이닝 데이터와 테스트 데이터가 비슷하다면
실제 정답 값과 예측 값의 차이를 절댓값으로 변환한 뒤 합산하여 평균을 구한다.특이값이 많은 경우에 주로 사용된다.값이 낮을수록 좋다.img장점직관점임정답 및 예측 값과 같은 단위를 가짐단점실제 정답보다 낮게 예측했는지, 높게 했는지를 파악하기 힘듦스케일 의존적임(sc
Training set은 모델을 학습하는데 사용된다. Training set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 이는 cheating이 되기 때문에 유효한 평가는 아니다. 마치 모의고사와 동일한 수능 문제지를 만들어 대입 점수를 매기는 것과
머신러닝이란 컴퓨터가 데이터로부터 학습할 수 있도록 하는 방법을 말한다.명시적으로 컴퓨터를 프로그래밍하는 대신, 컴퓨터가 데이터로 학습하고 경험을 통해 개선하도록 훈련하는 데 중점을 둔다.머신러닝에서 알고리즘은 대규모 데이터 세트에서 패턴과 상관관계를 찾고 분석을 토대