먼저 데이터의 양을 늘리는 방법이 존재한다. 데이터 양이 적을수록 노이즈나 특정 패턴까지 학습하는 경우가 있지만, 데이터 양이 늘리면 더욱 일반적인 패턴을 학습하기 때문이다.
Data Augmentation이나 Text의 경우에는 재번역을 통해 새로운 데이터를 만들어내는 역번역(Back Translation) 등의 방법이 존재한다.
또한 모델의 복잡도를 줄이는 방법도 존재한다. 즉, Model의 Parameter 수를 줄이는 것이다.
세 번째로 Dropout이 존재한다. Dropout은 학습 과정에서 신경망의 일부를 활용하지 않는 방법으로써, 서로 다른 신경망들을 앙상블하여 활용하는 것 같은 효과를 내 과적합을 방지한다.
마지막으로 가중치 규제(Regularization)을 적용하는 방법이 존재한다. 큰 개념은 가중치의 값이 일정 값 이상으로 커지지 않도록 제한하는 기법으로써, 복잡한 모델을 간단하게 만드는 것이다.
방법은 L1 규제, L2 규제가 존재한다. L1 규제는 기존의 Cost Function의 모든 가중치에 대하여 를 더하여 만들어진 Cost Function을 활용하는 것이고, L2 규제는 을 더하는 것이다.
이 때, 는 규제의 강도를 정하는 HyperParameter로써, 이 값이 크다면 적절한 Parameter 값을 찾는 것보다 규제를 위해 추가한 항들을 작게 유지하는 것을 우선한다는 의미를 가진다.
Word2Vec 기준으로 단어를 Embedding 했다고 가정하였을 때, 남자와 여자가 가까울 것이라고 생각한다.
남자와 여자를 Vector 연산으로 표시할 때, 오로지 성별이라는 Vector만 빼면 바로 갈 수 있다.
하지만, 남자와 자동차의 경우 먼저 자동차는 "타다"나 "만들다"라는 개념에서 파생될 수 있고, 또한 "사람"에서 이런 행위에 대한 개념이 나올 수 있을 것이다.
즉, 남자와 자동차 사이에서는 거쳐야 하는 중간 Vector 연산이 다양하고, 또한 행위 등의 Vector 연산을 수행해도 특정 값을 도출하기 위해 추가적인 연산을 수행해줘야 한다.
(ex. 타다 -> 자전거도 나올 수 있다. 따라서 자동차의 특성을 따로 추가해줘야 한다.)
이런 의미에서 남자와 여자가 가까울 것 같다고 생각한다.