좋은 모델이란 무엇인가? 이 질문에 답하기란 생각보다 쉽지 않다. 그렇지만 좋은 모델들이 공통적으로 갖추어야할 공통적인 덕목(?)이 있는데 그것은 바로 다음과 같다.현재 주어진 데이터, 즉 훈련 데이터를 잘 설명할 수 있다.미래에 주어질 데이터, 즉 테스트 데이터도 잘
크기가 $n \\times n$인 임의의 행렬 $\\mathbf{A}$에 고유값 분해(Eigenvalue Decomposition, EVD)를 적용하면 다음과 같은 관계식을 얻을 수 있다.$$\\tag{1}\\mathbf{A} = \\mathbf{Q}\\Lambda \
LDA는 전통적인 선형 학습법이며, 이진 분류 문제에서 Ronald A. Fisher가 가장 먼저 사용하였기 때문에 Fisher's discriminant analysis (FDA)라고도 불린다. 아이디어는 간단하지만 강력하다. 훈련 데이터를 어떠한 직선 위에 투영시킨
우리는 앞에서 단순회귀모델과 다중회귀모델에 대하여 살펴보았다. 둘의 가장 큰 차이는 독립변수의 수가 하나이냐 혹은 둘 이상이냐는 것인데 다음과 같이 하나의 독립변수에 대하여 고차 다항식으로 표현되는 모델의 회귀선은 어떻게 구할 수 있을까?$$\\tag{1}y = \\b
앞의 두 포스트1\. \[인사이드 머신러닝] 단순회귀모델: 회귀계수의 추정2\. \[인사이드 머신러닝] 단순회귀모델: 회귀선의 적합도 평가
아래의 내용을 읽어보기 전에 이전 포스트(\[인사이드 머신러닝] 단순회귀모델: 회귀계수의 추정)를 먼저 보는 것이 전체적인 흐름을 이해하는데 도움이 됩니다.이전 포스트에서 살펴본 방식대로 단순회귀모델에서 회귀직선을 추정한 후에는 그 결과가 얼마나 타당한지 검토하여야 한
사전적으로 회귀(Regression)란 말은 '다시 원래 자리로 돌아간다'는 뜻으로 이를 통계 분석에 처음 사용한 사람은 영국의 우생학자 Galton으로 알려져있다. 그는 완두콩 실험을 통해 부모콩의 무게를 $$x$$축으로 하고 자식콩의 무게를 $$y$$축으로 산점도(
데이터로부터 모델을 생성하여 분류/예측 진행linear regression, logistic regression, decision tree, SVM, neural network, ...별도의 모델 생성없이 인접 데이터를 분류/예측에 사용각각의 관측치 (instance)
모델을 학습시킴에 있어 클래스 간 샘플 수의 차이가 너무 크게 되면 분류기는 더 많은 샘플이 존재하는 클래스로 편향된다. 이 경우 전체적인 정확도는 높게 나올지라도 샘플 수가 적은 클래스에 대한 재현율(recall)이 작아지게 된다. 이러한 문제를 데이터 불균형 문제
분류기의 성능을 평가하기 위한 주요 지표와 방법을 알아보자. Confusion Matrix (오차행렬)
보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값이 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨
본 포스트를 보기 전에 이전 포스트를 먼저 보시면 도움이 됩니다.본 포스트를 작성하는데 아래 내용을 참고하였습니다. 그리고 본 포스트에 사용되는 모든 이미지는 1번 링크에서 가져왔습니다.1\. Four Ways to Compute an Inverse FFT Using
알고리즘의 목적 평면 상에서 고정된 격자 구조가 아닌 임의의 지점에 분포한 유한한 점들의 집합(즉, 포인트 군)의 경계를 찾는 알고리즘이다. 2차 평면상에서 여러 개의 점이 있을 때 그 점 중에서 일부를 이용하여 볼록 다각형을 만들고, 볼록 다각형 내부에 포인트 군의
어떠한 입력 시퀀스가 있다고 하자. 입력 시퀀스는 시계열 데이터 혹은 특정 차원으로 uniform sampling된 신호이다. 만약, non-uniform sampling을 사용한다면 적절한 위치에 0을 삽입하면 된다. 여기서 우리는 편의상 입력 시퀀스를 시계열 데이터
DFT(=FFT)는 데이터 분석 및 알고리즘 개발에 가장 흔히 사용되는 알고리즘 중 하나이다. 본 포스팅에서는 DFT의 기초적인 이론이나 주요 특성 등을 다루지 않는다. 학교를 졸업한 지 오래되서인지 개발을 하다보면 아주 기본적인 내용임에도 불구하고 부호가 헷갈린다거나
Partial FFT의 사용 목적 FFT 알고리즘은 효율적으로 DFT를 수행하는 알고리즘으로 매우 광범위한 분야에서 활용되고 있다. FFT의 출력 샘플 크기는 알고리즘적으로 입력 샘플 크기와 같거나 큰 2^n으로 결정된다. 그러나 많은 어플리케이션에서 전체 스펙트럼