ch.7 RNN을 사용한 문장생성

김혜성·2021년 8월 12일

RNN 밑바닥부터 시작하는 딥러닝 자연어 처리

언어 모델을 사용한 문장 생성

7.2 seq2seq

Machine Learning

목록 보기

10/10

언어 모델을 사용한 문장 생성

T개의 시계열 데이터를 한번에 처리하는 계층

Time Embedding 계층: 단어 ID를 단어의 분산 표현으로 변환
Time LSTM 계층: RNN과 다르게 c(기억 셀)가 있음 - LSTM 계층에서만 사용, 게이트가 추가됨(output, forget, input, 기억셀 추가(게이트 아님))
Time Affine 계층: LSTM을 거친 은닉 상태가 입력됨
Time Softmax 계층: 확률분포를 출력

"You say goodbye and I say hello"로 학습 후 I 입력시

이처럼 Softmax 계층에서 I 다음에 올 단어로 적합한 것을 확률 분포로 출력한다.

문장을 생성하는 모델을 만든다는 것은 다음 단어로 적합한 것을 고르고, 그 단어를 다시 언어 모델에 입력하여 또 적합한 단어를 출력받고 이 과정을 반복하는 과정이다.

확률적 선택
Softmax에서 출력되는 확률 분포에 따른 확률적 선택
매 실행마다 생성되는 문장이 달라질 수 있다
결정적 선택
확률 분포에서 제일 높은 확률의 단어 선택
매 실행마다 같은 문장이 생성된다

이 과정을 반복한다
원하는 횟수만큼 또는 종결기호 \<eos> 등을 만날 때까지.

의의: 생성된 문장은 기존 문장이 아닌 새로 생성된 문장이다. 훈련 데이터를 암기한 것이 아니라 훈련 데이터의 단어 정렬 패턴, 규칙을 학습했기에.

여기서는 한 문장을 학습했기에 그저 단어들의 순서나 개수가 바뀌었다고 생각할 수 있지만 더 큰 말뭉치를 학습할 경우 더 풍부한 표현과 문장이 나올 수 있다

class RnnlmGen(Rnnlm): # Rnnlm 클래스 상속
  # generate: 문장 생성을 수행하는 메서드
  def generate(self, start_id, skip_ids=None, sample_size = 100):
    word_ids = [start_id]

    x = start_id
    while(len(word_ids) < sample_size):
      x = np.array(x).reshape(1, 1) # x는 이차원 배열(predict가 미니배치 처리를 해서)
      score = self.predict(x) # 전처리 이전
      p = softmax(score.flatten())

      sampled = np.random.choice(len(p), size=1, p=p) # 확률 고려하여 단어 선택
      # 네거티브 샘플링
      if(skip_ids is None) or (sampled not in skip_ids):
        # <unk>, N 등 전처리된 단어 샘플링하지 않도록
        # <unk>: 희소한 단어 N: 숫자 <eos>: 문장 구분 기호
        x = sampled
        word_ids.append(int(x))

    return word_ids

위와 같이 ch.5에서 만들었던 Rnnlm 클래스를 상속하여 언어 생성 클래스를 만들었다.
이 때 'you'를 start word로 입력했을 때 어떤 문장들이 나올지 살펴보자

from dataset import ptb

corpus, word_to_id, id_to_word = ptb.load_data('train')
vocab_size = len(word_to_id)
corpus_size = len(corpus)

model = RnnlmGen()
#model.load_params('ch06/Rnnlm.pkl')

#시작 문자, skip 문자 설정
start_word = 'you'
start_id = word_to_id[start_word]
skip_words = ['N', '<unk>', '$']
skip_ids = [word_to_id[w] for w in skip_words]

# 문장 생성
word_ids = model.generate(start_id, skip_ids)
txt = ' '.join([id_to_word[i] for i in word_ids])
# join: 리스트의 단어들 합쳐줌
txt = txt.replace(' <eos>', '.\n')
# 종결 기호를 .\n으로 바꾸어줌
print(txt)

param 주석을 해제하면 학습으로 설정된 가중치를 반영했을 때로 문장이 생성되는데, 이 때가 비교해보면 좀 더 문장이 매끄럽고 자연스럽다

you suspect because of a fund that was slowing to the pace of a smaller pay loans.
former richard w. really to hastily door to a major man 's cast came a hat of the first time.
this are widely even complex of half the national intelligence committee are times by the new york judge once out.
it was considering out said in a tower meeting.
mr. bush is n't the aides said.
he warned that he was too convinced.
in the judge was u.s. activities as stability fees through this year was demanded

이런 문장들이 나왔다

이번에는 ch.6에서 만든 BetterRnnlm을 사용해서 문장을 생성해보자

class BetterRnnlmGen(BetterRnnlm): # BetterRnnlm 클래스 상속
 # generate: 문장 생성을 수행하는 메서드
 def generate(self, start_id, skip_ids=None, sample_size = 100):
   word_ids = [start_id]

   x = start_id
   while(len(word_ids) < sample_size):
     x = np.array(x).reshape(1, 1) # x는 이차원 배열(predict가 미니배치 처리를 해서)
     score = self.predict(x) # 전처리 이전
     p = softmax(score.flatten())

     sampled = np.random.choice(len(p), size=1, p=p) # 확률 고려하여 단어 선택
     # 네거티브 샘플링
     if(skip_ids is None) or (sampled not in skip_ids):
       # <unk>, N 등 전처리된 단어 샘플링하지 않도록
       # <unk>: 희소한 단어 N: 숫자 <eos>: 문장 구분 기호
       x = sampled
       word_ids.append(int(x))

   return word_ids

you like to consider new york and reporters care in the problem.
mr. roman said the fate mr. pediatric says i remember much of those loans about one of the local interbank required even again.
mr. bergsma sent down slightly to a jury he took over the committee and will meet its warning to a criminal contract.
but mr. honecker has about taxes.
mr. stone the top meeting mr. stone played the secretary of mr. freeman.
in his reputation game mr. senator already is entering individual and the potential of mr. krenz 's chair.

첫 문장에서도 s+V and s+v 형태로 완벽한 문장이 나왔다. 좀 더 매끄러운 느낌이다.

the meaining of life is 뒤에 출력되도록 했을 때 나온 내용 중 마음에 드는 것을 가져와보았다.

7.2 seq2seq

시계열 데이터를 다른 시계열 데이터로 변환하는 문제를 살펴보자.
예를 들면 기계 번역, 음성 인식, 챗봇 등이 있다. 기계 번역의 경우 자연어 문장이 들어오면 이를 해석해서 다른 언어의 자연어 문장으로 바꾸어야 하기에 시계열 데이터를 시계열 데이터로 바꾸는 과정이다.

seq2seq: RNN 2개를 사용하는 Encoder-Decoder 모델이다

Encoder, Decoder에 RNN을 사용한다!

Encoder

Encoding: 부호화 - 정보를 특정 규칙에 따라 변환
ex) 'A' -> 1000001

이 그림에서 Encoder은 LSTM계층을 통해 h(은닉 상태 벡터)를 반환하는데, 여기에 입력된 문장을 번역하고 변환하는 데에 필요한 정보가 인코딩된 것이다

이 그림에서 볼 수 있듯이 h는 고정 길이 벡터이다. 따라서 입력 문장의 길이가 달라도 동일한 길이의 h가 출력된다.

Decoder

decoding: 복호화 - 인코딩된 정보를 원래 정보로 변환
ex) 1000001 -> 'A'

굉장히 형태가 익숙한데, 앞에서 다룬 문장 생성 모델과 유사하기 때문.
처음에 <eos>라는 구분자를 입력했을 때 번역이 이루어지며 한글이었던 입력 문장이 영어로 하나하나 출력됨을 볼 수 있다.

한가지 다른 것은 LSTM 계층에서 h를 입력받는다는 점.
이 h는 Encoder에서 나온 은닉 상태 벡터 h이다.

전체 계층

전체 계층을 한 눈에 보면 위와 같다.
왼쪽이 Encoder, 오른쪽이 Decoder이고 각각이 RNN 중 LSTM으로 구성된다.
여기서 h가 둘을 연결하는 '가교' 역할을 한다. 순전파일 때는 Encoder의 은닉상태가 Decoder에 전달되고 역전파일 때는 Decoder에서 Encoder로 가중치나 기울기가 전달된다