X is discrete or continuous Y is discrete.
패턴 인식과 머신러닝에서 사용되는 개념으로, 주어진 데이터를 다른 클래스나 범주로 구분하는 데 사용됩니다.(Supervised Learning)
입력 데이터가 주어졌을 때, 이 데이터가 어떤 클래스에 속하는 지 결정합니다. 이는 데이터의 특성을 기반으로 한 Decision Boundary를 만들어냅니다.(input , choose class c with the higheset )
, 는 data instance가 class c에 속한다고 판단되면 output을 최대화합니다. Decision making with a discriminant function.
LinReg : Discriminative Parameter w가 이 확률 분포에 어떻게 영향을 미치는지를 구분하는 데 사용합니다. 해석해보자면, 주어진 입력 x와 파라미터 w에 대해 y가 나타날 확률을 의미합니다.
주어진 데이터의 확률적 속성을 학습하고, 이 정보를 사용하여 새로운 데이터 샘플이 어떤 클래스에 속할 확률을 추정합니다.
데이터가 어떻게 생성되는 지에 대한 모델을 구축하고, 각 클래스에 대한 데이터의 분포를 학습하는 것을 포함합니다.
Goal : 클래스 간의 분리를 최대화(Between-class separability)하는 동시에 클래스 내의 분산을 최소화(with-class variability)를 최소화하는 선형 조합을 찾는 것입니다.
서로 다른 데이터 클래스를 최소한의 오류로 구분할 수 있는 라인에 D-dimensional data를 Projecting하는 문제를 고려합니다.
discrimination을 효율적으로 하는 projection을 찾아야 합니다.
새로운 저차원 공간으로의 투영 : 계산된 축(또는 벡터)를 사용하여 데이터를 저차원 공간으로 투영합니다. 이 저차원 공간에서는 클래스 간 분리가 최대화됩니다.
Fisher's criterion
Training
Maximize (binary classification의 가정하)
각각 sample mean과 sample variance after projection with w.
LDA에서는 벡터 w를 사용하여 데이터를 저차원 공간으로 투영합니다. 이 문제는 generalized eigenvalue problem으로 표현됩니다.
를 최대화하고, 인 조건을 만족시키는 w를 찾는 것으로 재정의됩니다.
로 설정하는 이유는 최적화 문제에서 크기 제한을 두기 위함입니다.
를 최소화하고, 여기서 을 곱해준 이유는, w가 제곱이 되기 때문에 미분하면 cancel out되게 하기 위해서 곱해주는 것이다. 또한, 최적화 문제에서 상수 배수는 최적화의 해에 영향을 주지 않으므로, 상관없습니다.
어떤 함수의 최대값을 찾는 것은 그 함수의 음수를 취한 후 최소값을 찾는 것과 수학적으로 동일합니다.
w에 관해서 미분을 하면 결과는
의 역행렬인 가 존재해야 합니다. 이 가정은 클래스 내 분산이 모든 방향에 대해 0이 아니라는 것을 의미합니다.
최적화 문제는 , 는 행렬 의 고유벡터, 는 해당 고유값을 나타냅니다.
는 S의 고유벡터이며, 는 그에 해당하는 고유값입니다. 고유벡터는 데이터를 최적으로 분리하는 새로운 축을 나타내고, 고유값은 그 축의 중요도를 나타냅니다. 즉, 사이의 차이를 가장 잘 나타내는 방향으로 데이터를 투영하는 벡터입니다.
방향만이 중요하므로, 스케일링을 무시하고 를 으로 설정할 수 있습니다. 이는 두 클래스 평균 사이의 차이를 클래스 내 분산으로 조정한 것을 의미합니다.
LDA에서 최적의 discriminant vector 를 찾은 후, 모든 데이터 인스턴스는 이 새로운 축으로 변화됩니다.
판별함수 : 로, 주어진 임계값 에 기반하여 임계값보다 크면 1로 분류하고, 임계값보다 작으면 0으로 분류합니다.