차원이 증가하면서 학습데이터 수가 차원 수보다 적어져 성능이 저하되는 현상을 말한다. 차원이 증가한다는 말은 변수가 증가한다는 의미이며, 개별 차원 내에서 학습할 데이터 수가 적어지게 된다.
변수가 증가하는 것 자체로는 차원의 저주 문제가 발생하지는 않는다. 문제는 학습 데이터 수가 적을 때 발생한다.
1차원에 빽빽하게 데이터가 존재하더라도 2차원 공간에 가면 y축의 값이 추가되기 때문에 데이터 간의 거리가 멀어지게 된다. 데이터 간 거리가 멀어진다는 의미는 데이터 간 공간이 많이 비어있다는 것을 의미하고, 이는 컴퓨터 상으로 0으로 채워졌다는 것을 의미한다. 즉, 정보가 적어진다는 의미와 동일하며 모델의 성능은 당연히 떨어질 수 밖에 없다.
KNN이라는 알고리즘이 존재하는데, KNN은 자신과 가장 가까운 이웃 K개를 보고 결과값을 도출하는데 차원이 커질수록 이웃간의 거리가 멀어지기 때문에 차원의 저주 문제에 매우 치명적인 알고리즘이라고 할 수 있다.
차원의 저주의 해결책으로는 차원을 축소시키거나, 데이터를 많이 획득하여 학습시키는 방법이 존재한다. 하지만 현실적으로 차원이 매우 클 경우 그만큼 데이터도 기하급수적으로 많이 필요하게 되어 차원을 축소시키는 방식을 더 많이 활용한다.
신경망 모델이 목적은 Loss를 최소화하는 Parameter를 구하는 것이다. 이를 위해 경사 하강법을 활용한다.
그런데, 경사 하강법을 활용할 때 시작점이 어디냐에 따라 좋은 학습이 진행될 수도 있고, 안 될 수도 있다. 누군가는 이를 "모델에서 좋은 성능을 내는 유전자가 존재한다"라고도 말했고, 이 좋은 유전자를 선택하기 위해 Weight Initalization을 활용한다.
가장 쉽게 생각할 수 있는 방법은 Zero Initalization이나 Random Initalization 방법이다. 하지만 최근에 많이 활용하는 방식은 Xavier Initalization과 He Initalization 방법이다.
Sigmoid 함수를 활용할 때는 Xavier Initalization을, ReLU 함수일 때는 He Initalizatio 방법을 일반적으로 활용한다.
Random Initalization이나 Zero Initalization에서 모든 노드의 활성화 함수 출력값이 비슷하면 노드를 여러 개로 구성하는 의미가 사라진다는 문제점이 존재한다.
이를 해결하기 위해 고안된 방법이 Xavier Initalization 방법이다.
이 방법은 고정된 표준편차를 활용하지 않고, 이전 은닉층과 현재 은닉층 노드 개수를 활용하여 표준편차를 구하고, 이를 통해 가중치를 초기화하는 방법이다.
He 초기화는 ReLU를 활성화 함수로 활용할 때 추천되는 초기화 방법이다.
Xavier Initialzation을 ReLU 함수에 적용하면 층이 깊어질수록 분포가 치우친다(0쪽으로)
즉, 층이 매우 깊어진다면 0쪽으로 분포가 더욱 치우쳐져 기울기 소실이 발생할 가능성이 존재한다.
He Initalization은 층이 깊어지더라도 모든 활성값이 고른 분포를 보이기 때문에 ReLU 활성화 함수와 같이 많이 활용된다.
TF는 Term Frequency(문서 내 얼마나 자주 등장하는지), DF는 Document Frequency(다른 문서에도 많이 나오는지)에 대한 것을 의미한다. IDF는 DF의 Inverse값을 의미한다.
TF-IDF는 TF와 IDF 점수를 곱한 값이다.
TF가 높다는 것은 문서 내 특정 단어가 매우 많이 등장한다는 것이고, 해당 문서에 중요하게 활용되는 단어라고 생각할 수 있다.
DF가 높다는 것은 다른 문서에서도 해당 단어가 많이 활용된다는 의미이기 때문에, 해당 문서에서만 중요한 것이 아닌 통용적으로 많이 활용되는 중요한 단어라는 것을 의미하며, 단어의 중요도는 낮아지게 될 것이다.
즉, TF-IDF 점수는 TF와 IDF의 특징을 모두 가진 값으로, TF-IDF 점수가 높을수록 다른 문서에는 많이 나오지 않으며 특정 문서에서만 많이 등장한다는 것을 의미하고, 해당 문서에서 매우 중요한 역할을 하는 단어라는 것을 의미한다.