식
장점 : 동일한 학습 알고리즘(Optimization for weight paramteters)을 사용할 수 있습니다. Feature Functions를 통해 데이터를 변환시킨 후에는, 변환된 데이터에 대해 linear model을 적용하여 학습할 수 있습니다.
문제 :
종류
다항식 기저 함수(Polynomial Basis Functions):
이는 가장 흔히 사용되는 기저 함수 중 하나로, 입력 특성의 다항식을 포함합니다. 여러분이 언급한 것처럼, 이러한 함수들은 ( x^2, x^3, \ldots ) 또는 ( x_1x_2, x_1^2x_2, \ldots )와 같은 항을 포함할 수 있습니다.
가우시안 기저 함수(Gaussian Basis Functions):
각 기저 함수가 가우시안 함수(정규 분포)의 형태를 갖습니다. 이는 데이터 포인트를 중심으로 '언덕' 모양의 기저를 생성하며, 주로 래디얼 기저 함수 네트워크(RBF 네트워크)에서 사용됩니다.
시그모이드 기저 함수(Sigmoid Basis Functions):
시그모이드 함수 형태의 기저 함수로, 로지스틱 회귀 분석에서 흔히 볼 수 있습니다.
푸리에 기저 함수(Fourier Basis Functions):
사인과 코사인 함수의 조합을 사용하여 주기적인 패턴을 모델링합니다.
스플라인 기저 함수(Spline Basis Functions):
데이터의 구간별로 다항식을 정의하고, 이를 매끄럽게 연결하여 복잡한 패턴을 유연하게 모델링합니다.
웨이블릿 기저 함수(Wavelet Basis Functions):
웨이블릿 변환을 사용하여 시간-주파수 공간에서 데이터를 분석하고 특징을 추출합니다.
지표 함수(Indicator Functions) 또는 더미 변수(Dummy Variables):
범주형 데이터를 다룰 때 사용되며, 특정 범주에 속하는지 여부를 나타내는 이진 지표 변수를 생성합니다.
장점 :
예시 :
커널 선택의 문제:
어떤 커널을 사용할지 결정하는 것은 중요한 문제입니다. 각기 다른 커널은 데이터의 다른 특성을 잡아내며, 모델의 성능과 일반화 능력에 영향을 미칩니다.
커널을 선택할 때는 데이터의 특성, 문제의 종류, 계산 효율성 등을 고려해야 합니다. 또한, 커널 선택은 종종 교차 검증과 같은 모델 선택 기법을 통해 이루어집니다.
다른 Solution은 Perceptron을 사용하지 말자 Decision Tree, Naive Bayes, Bayesian Models이 있습니다.
아이디어 :
Neural Network는 여러 층을 통해 신호를 더하고 이때 sigmoid와 같은 non-linear mapping을 사용합니다.
LogReg | Perceptron |
---|---|
Sigmoid | Activation Function |
1. 전통적인 활성화 함수:
중요한 것은 unit function은 구분할 수 없습니다
이미지에 설명된 'unit'은 신경망에서 하나의 뉴런을 의미합니다. 신경망에서 각 뉴런(또는 'unit')은 일반적으로 두 부분으로 구성됩니다:
선형 집계(linear aggregation): 이는 여러 입력 에 대한 가중치 의 선형 결합과 바이어스 를 포함합니다. 수학적으로는 다음과 같이 표현됩니다:
비선형 매핑(non-linear mapping function): 선형 집계를 받아 비선형 활성화 함수를 적용하여 최종 출력을 결정합니다. 이 비선형 활성화 함수는 신경망이 선형적으로 분리 불가능한 패턴을 학습할 수 있게 해줍니다.
이것은 신경망의 구조적 일관성을 유지하기 위한 것으로, 모든 뉴런이 같은 종류의 비선형 변환을 수행합니다. 예를 들어, 신경망의 모든 뉴런이 ReLU 활성화 함수를 사용하면, 이 네트워크의 'unit function'은 ReLU가 됩니다. 다른 활성화 함수를 사용하려면 네트워크를 재설계하거나 다른 네트워크를 선택해야 합니다.
Activation Function이 없다면 Multi-layer에서는 어떤 문제가 있을까?