Overfitting, 단어간 유사성, ROC Curve

DONGJIN IM·2022년 3월 20일

면접준비

목록 보기

3/8

Overfitting일 경우 어떻게 대처해야 할까요?

먼저 데이터의 양을 늘리는 방법이 존재한다. 데이터 양이 적을수록 노이즈나 특정 패턴까지 학습하는 경우가 있지만, 데이터 양이 늘리면 더욱 일반적인 패턴을 학습하기 때문이다.
Data Augmentation이나 Text의 경우에는 재번역을 통해 새로운 데이터를 만들어내는 역번역(Back Translation) 등의 방법이 존재한다.
또한 모델의 복잡도를 줄이는 방법도 존재한다. 즉, Model의 Parameter 수를 줄이는 것이다.
세 번째로 Dropout이 존재한다. Dropout은 학습 과정에서 신경망의 일부를 활용하지 않는 방법으로써, 서로 다른 신경망들을 앙상블하여 활용하는 것 같은 효과를 내 과적합을 방지한다.
마지막으로 가중치 규제(Regularization)을 적용하는 방법이 존재한다. 큰 개념은 가중치의 값이 일정 값 이상으로 커지지 않도록 제한하는 기법으로써, 복잡한 모델을 간단하게 만드는 것이다.
방법은 L1 규제, L2 규제가 존재한다. L1 규제는 기존의 Cost Function의 모든 가중치에 대하여 $\lambda |w|$ 를 더하여 만들어진 Cost Function을 활용하는 것이고, L2 규제는 $\frac{1}{2}\lambda |w|^2$ 을 더하는 것이다.
이 때, $\lambda$ 는 규제의 강도를 정하는 HyperParameter로써, 이 값이 크다면 적절한 Parameter 값을 찾는 것보다 규제를 위해 추가한 항들을 작게 유지하는 것을 우선한다는 의미를 가진다.

남자와 여자가 가까울까? 남자와 자동차가 가까울까?

Word2Vec 기준으로 단어를 Embedding 했다고 가정하였을 때, 남자와 여자가 가까울 것이라고 생각한다.
남자와 여자를 Vector 연산으로 표시할 때, 오로지 성별이라는 Vector만 빼면 바로 갈 수 있다.

하지만, 남자와 자동차의 경우 먼저 자동차는 "타다"나 "만들다"라는 개념에서 파생될 수 있고, 또한 "사람"에서 이런 행위에 대한 개념이 나올 수 있을 것이다.
즉, 남자와 자동차 사이에서는 거쳐야 하는 중간 Vector 연산이 다양하고, 또한 행위 등의 Vector 연산을 수행해도 특정 값을 도출하기 위해 추가적인 연산을 수행해줘야 한다.
(ex. 타다 -> 자전거도 나올 수 있다. 따라서 자동차의 특성을 따로 추가해줘야 한다.)
이런 의미에서 남자와 여자가 가까울 것 같다고 생각한다.

추가로 생각한 것
물론, 일반적인 Corpus로 학습하였을 때의 경우이고, 만약 여자에 대한 명시가 거의 없고 남자와 자동차 관련성에 대한 논문으로 학습하였을 경우, 남자와 자동차는 연관성이 그래도 존재하지만 여자라는 단어는 거의 나오지 않아 아예 남자라는 단어와 연결될 수 없는(혹은 매우 먼 거리를 돌아가야 하는) Vector가 될 수도 있을 것 같지만, 이런 특수 Case는 일단 고려하지 않기로 했다.

ROC Curve

https://velog.io/@idj7183/Metric-POS-Tagging-Cost-Function%EA%B3%BC-Activation-Function
ROC Curve 및 해당 Curve를 활용한 Metric인 AUROC에 대해 설명했음

DONGJIN IM

개념부터 확실히!

이전 포스트

Word2Vec, LSTM, Cross Validaation

다음 포스트