Week4 Day1

김종영·2021년 2월 15일

0

📋 $Natural$ $Language$ $Processing$

$human$ $language$ 를 적절하게 이해하고 만들어내는 것을 목표로한다.
$language$ $modeling$ , $machine$ $translation$ , $question$ $answering$ , $document$ $classification$ $and$ $dialog$ $system$

📌 $Bag$ - $of$ - $Words$ $representation$

$unique$ $word$ 를 포함하는 $vocaulary$ 구성
$unique$ $word$ 를 $one$ - $hot$ $vector$ 로 $encoding$
모든 단어들의 $pair$ $distance$ 가 같다.
모든 단어들의 사이 유사도가 같다.

📌 $NaiveBayes$ $Classifier$ $for$ $Document$ $Classification$

$document$ 가 주어졌을 때 문서가 어떤 $class$ 에 속하는지 분류하는 태스크
베이즈룰을 사용해서 분류하는 방식

📌 $Word2Vec$

하나의 차원에 단어의 모든 의미를 표현하는 $one$ - $hot$ $encoding$ 과 달리 단어의 $distributed$ $representation$ 을 학습하고자 한다.
같은 문장에 속한 단어들을 학습하여 비슷한 의미의 단어가 좌표상의 비슷한 위치로 $mapping$ 될 수 있도록

📌 $GloVe$

특정한 입출력 셋이 $window$ 안에 빈번하게 발생하여 여러번 학습될 때 내적값이 커질 수 있는데 애초에 입출력 셋 쌍에 대한 발생횟수를 미리 계산하여 $loss$ $term$ 에 추가해주는 방식
중복 계산을 줄여주고, $W2V$ 에 비해 상대적으로 학습 빠르고, 적은 데이터에 잘 동작

이전 포스트

Week3 Day4

다음 포스트

Week4 Day2

0개의 댓글