미래를 예측할 수 있는 네트워크, 네트워크 순환 신경망은 고정길이 입력이 아닌 임의 길이를 가진 시퀀스를 다룰 수 있다. 예를 들어 문장, 문서, 오디오 샘플을 입력으로 받을 수 있고, 자동 번역, 스피치 투 텍스트 같은 자연어 처리에 유용하다. 케라스의 함수형 AP
파이토치에서 임베딩 벡터를 사용하는 방법은 2가지다. 임베딩 층을 만들어 훈련 데이터로부터, 처음부터 임베딩 벡터를 학습하는 방법과 미리 사전에 훈련된 임베딩 벡터들을 가져와 사용하는 방법 미리 사전에 훈련된 임베딩 벡터들을 가져와 사용하는 방법 임베딩 층은 룩업
번역기 번역기의 내부를 상상해보자. 번역기의 모습은 어떻게 생겼을까? 번역기는 크게 인코더와 디코더라는 두 개의 모듈로 구성된다. 인코더는 입력 문장의 모든 단어들을 순차적으로 입력받은 뒤에 마지막에 이 모든 단어 정보들을 압축해서 하나의 벡터로 만드는데, 이를 컨벡
1. 전처리 대부분의 자연어 데이터에는 특수문자들이 섞여 있다. 특히 웹크롤링을 통해 데이터를 수집한 경우 분석하기에 앞서 분석에 알맞은 데이터만 남아있도록 가공해주어야 한다. 2. Tokenization 임베딩: 문자열을 다차원 벡터로 바꾸는 과정 단어 임베딩
BERT 사전학습된 대용량의 레이블링 되지 않는 데이터를 이용하여 언어 모델을 학습하고 이를 토대로 문서 분류나 질의 응답, 번역등을 위한 신경망을 추가하는 전이 학습 방법 대용량의 데이터를 직접 학습시키기 위해서는 매우 많은 자원과 시간이 필요하지만 BERT 모델
model.eval() vs torchnograd() model.eval()은 dropout, batchnorm 등의 기능을 비활성화 시켜 추론 모드로 조정해주는 역할을 한다. torch.no_grad()는 autograd engine을 비활성화시켜 필요한 메모리를
손실 함수는 값을 예측하려 할 때, 데이터에 대한 예측값과 실제의 값을 비교하는 함수로 모델을 훈련시킬 때, 오류를 최소화시키기 위해 사용되며, 주로 회귀에서 사용한다.예측한 값과 실제 값 사이의 평균 제곱 오차를 정의한다. 공식이 매우 간단하며, 차가 커질수록 제곱
base model 외우기 양방향 LSTM? 가령 단어 'BOOK'이 있고 B가 21, O가 7, K가 11이라고 하면 BOOK은 21,7,7,11로 인코딩 되어 있을까요? 이 각 정수를 각각 임베딩 층을 거치도록 하여 문자 단위 임베딩을 얻게 됩니다. 임베딩 층은
state_dict statedict는 간단히 말해 각 계층 매개변수 텐서로 매핑되는 파이썬 사전 객체다. 모델의 학습 가능한 매개변수들은 모델의 매개변수에 포함되어 있다. statedict는 간단히 말해 각 계층을 매개변수 텐서로 매핑되는 dict 객체이다. 이 때
conv2d에서 사용되는 파라미터는 inchannels, outchannels, kernel_size다. 나머지 파라미터는 기본값이 입력되어 있다. 내가 만약 28x28 size를 가진 mnist자료를 사용한다고 하면, in_channels: 1 out_chan
개수를 맞춰서 데이터 프레임을 복제하는 방법 행 1개 복제 행 여러 개 복제 2345개의 행을 24000개 까지 복제하고 싶다고 한다면, 원래 갯수의 행의 개수에서 목표개수를 나눈 값 +1을 한 다음, 거기서 잘라내면 된다.
simple rnn 우선 RNN과 LSTM을 테스트하기 위한 임의의 입력을 만든다. 이는 (배치사이즈, timesteps, input_dim)에 해당하는 3d 텐서다. 배치사이즈는 한 번에 rnn이 학습하는 데이터 양을 의미하지만 여기는 샘플이 하나밖에 없다. 은
출력층 방향으로만 활성화 함수를 지나는 신경망을 피드 포워드 신경망이라고 한다. 하지만 rnn은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 갖고 있다. rnn에서 은닉층에서 활
1. 바닐라 RNN의 한계 앞에서 바닐라 RNN은 출력 결과가 이전의 계산 결과에 의존한다는 것을 언급한 바 있습니다. 하지만 바닐라 RNN은 비교적 짧은 시퀀스에 대해서만 효과를 보이는 단점이 있습니다. 바닐라 RNN의 시점이 길어질 수록 앞의 정보가 뒤로 충분히