보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값이 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨
모델을 학습시킴에 있어 클래스 간 샘플 수의 차이가 너무 크게 되면 분류기는 더 많은 샘플이 존재하는 클래스로 편향된다. 이 경우 전체적인 정확도는 높게 나올지라도 샘플 수가 적은 클래스에 대한 재현율(recall)이 작아지게 된다. 이러한 문제를 데이터 불균형 문제
사전적으로 회귀(Regression)란 말은 '다시 원래 자리로 돌아간다'는 뜻으로 이를 통계 분석에 처음 사용한 사람은 영국의 우생학자 Galton으로 알려져있다. 그는 완두콩 실험을 통해 부모콩의 무게를 $$x$$축으로 하고 자식콩의 무게를 $$y$$축으로 산점도(
아래의 내용을 읽어보기 전에 이전 포스트(\[인사이드 머신러닝] 단순회귀모델: 회귀계수의 추정)를 먼저 보는 것이 전체적인 흐름을 이해하는데 도움이 됩니다.이전 포스트에서 살펴본 방식대로 단순회귀모델에서 회귀직선을 추정한 후에는 그 결과가 얼마나 타당한지 검토하여야 한
앞의 두 포스트1\. \[인사이드 머신러닝] 단순회귀모델: 회귀계수의 추정2\. \[인사이드 머신러닝] 단순회귀모델: 회귀선의 적합도 평가
우리는 앞에서 단순회귀모델과 다중회귀모델에 대하여 살펴보았다. 둘의 가장 큰 차이는 독립변수의 수가 하나이냐 혹은 둘 이상이냐는 것인데 다음과 같이 하나의 독립변수에 대하여 고차 다항식으로 표현되는 모델의 회귀선은 어떻게 구할 수 있을까?$$\\tag{1}y = \\b
LDA는 전통적인 선형 학습법이며, 이진 분류 문제에서 Ronald A. Fisher가 가장 먼저 사용하였기 때문에 Fisher's discriminant analysis (FDA)라고도 불린다. 아이디어는 간단하지만 강력하다. 훈련 데이터를 어떠한 직선 위에 투영시킨
좋은 모델이란 무엇인가? 이 질문에 답하기란 생각보다 쉽지 않다. 그렇지만 좋은 모델들이 공통적으로 갖추어야할 공통적인 덕목(?)이 있는데 그것은 바로 다음과 같다.현재 주어진 데이터, 즉 훈련 데이터를 잘 설명할 수 있다.미래에 주어질 데이터, 즉 테스트 데이터도 잘
분류기의 성능을 평가하기 위한 주요 지표와 방법을 알아보자. Confusion Matrix (오차행렬)
데이터로부터 모델을 생성하여 분류/예측 진행linear regression, logistic regression, decision tree, SVM, neural network, ...별도의 모델 생성없이 인접 데이터를 분류/예측에 사용각각의 관측치 (instance)
크기가 $n \\times n$인 임의의 행렬 $\\mathbf{A}$에 고유값 분해(Eigenvalue Decomposition, EVD)를 적용하면 다음과 같은 관계식을 얻을 수 있다.$$\\tag{1}\\mathbf{A} = \\mathbf{Q}\\Lambda \