1. 개요 다중 분류를 위한 인공신경망을 빌드할 때 보통 마지막 레이어의 출력값에 Softmax를 직용시키고 실제 레이블값과 비교하여 Cross-Entropy Loss를 계산한다. Softmax를 통해 마지막 레이어의 출력값을 확률값으로 변환할 수 있고 Cross-E
단어를 컴퓨터가 이해할 수 있는 벡터로 표현하기 위해서는 통계 기반 기법 또는 추론 기반 기법을 사용할 수 있다. 통계 기반 기법은 동시 등장 행렬(Co-occurrence Matrix)과 같은 방법이 있고 추론 기반 기법에는 오늘 소개하고자 하는 Word2Vec이 있
트랜스포머 구조는 입력 시퀸스 내의 아이템 간의 연관성을 파악하기 위해 attention을 사용한다. 자연어 처리의 맥락에서 말을 하자면 시퀸스는 문장이 되고 아이템은 단어(토큰)이 될 것이다. attention은 각 단어가 다른 단어와 얼마나 연관성이 있는지 나타내는
이 글에 등장하는 예시와 jupyter notebook은 Andrej Karpathy의 Building makemore Part 4: Becoming a Backprop Ninja을 참고해 작성했습니다.PyTorch 및 TensorFlow와 같은 라이브러리는 사용자가
이 글은 "밑바닥부터 시작하는 딥러닝 2"의 내용을 정리한 글입니다.언어 모델(Language Model, LM)은 언어라는 현상을 모델링하고자 단어 시퀀스(문장)에 확률을 할당(assign)하는 모델이다. 이러한 특징으로 인해 언어 모델은 단어 순서의 자연스러움을
Perflexity는 언어 모델(Language Model)을 평가하는 지표 중 하나이다. Perflexity는 언어 모델이 다음 단어를 예측할 때 정답이 되는 단어에 대한 예측 확률의 역수이다. 예를 들어서 "you say hello to"라는 문장이 언어 모델의 입
순환 신경망은 순서가 있는 시계열 데이터를 다루기 위해 사용하는 인공 신경망이다. 문장 역시 단어의 시퀸스이므로 자연어 처리에도 순환 신경망을 사용할 수 있다.순환 신경망이라는 이름이 붙은 이유는 네트워크 내에 순환하는 경로가 있다는 것이다. 순환 신경망의 출력값은 다