[Tensorflow] 3. Natural Language Processing in TensorFlow (1 week Sequence models and literature) : programming (1)

gunny·2024년 4월 11일
0

[Tensorflow] 3. Natural Language Processing in TensorFlow (1 week Sequence models and literature) : programming (1)

토크나이저 기초(Tokenizer Basics)

  • 대부분의 NLP 작업에서 데이터 준비의 초기 단계는 코퍼스(예: 입력 텍스트)에서 단어 어휘를 추출하는 것이다. 신경망을 훈련하는 데 사용할 수 있는 숫자 표현으로 텍스트를 표현하는 방법을 정의해야 한다.
    이러한 표현을 토큰이라고 하며 Tensorflow와 Keras를 사용하면 API를 사용하여 이러한 표현을 쉽게 생성할 수 있다.

[1] Generating the vocabulary (어휘 생성)

  • 아래 코드는 문장 목록을 가져온 다음 해당 문장의 각 단어를 가져와 정수에 할당한다. 이는 fit_on_texts() 메소드를 사용하여 수행되며 word_index 속성을 확인하여 결과를 얻을 수 있다. 빈도가 높은 단어는 색인이 낮다.

먼저, 필요한 라이브러리를 import 한다.

from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'i love my dog',
    'I love my cat']

tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)

word_index= tokenizer.word_index
print(word_index)

# output
{'i': 1, 'love': 2, 'my': 3, 'dog': 4, 'cat': 5}

num_words 매개변수는 시퀀스를 생성할 때 유지할 최대 단어 수에서 1을 뺀 값(빈도 기준)을 지정하여 초기화한다.

  • 토크나이저 인스턴스 생성시에는 기본적으로 모든 구두점은 무시되고 단어는 소문자로 변환된다.
    여기에 설명된 대로 Tokenizer 클래스의 필터와 하위 인수를 수정하여 이러한 동작을 재정의할 수 있다.

num_words의 인자는 word_index 사전이 생성되는 방식에 영향을 미치지 않는다.

다음 코드에서 100 대신 1을 전달하면 동일한 word_index에 도달하게 된다.

sentences = [
    'i love my dog',
    'I love my cat',
    'You love my dog!'
]

tokenizer = Tokenizer(num_words=1)
tokenizer.fit_on_texts(sentences)
word_index= tokenizer.word_index

print(word_index)
# output
{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}

위의 Tokenizer 인자에 대해 조금 더 자세하게 정리해보자면,

Tensorflow의 Tokenizer

[1] Tokenizer의 parameter : num_words

Tensorflow의 Tokenizer를 이용해서
주어진 문장의 토큰에 따라 단어 사전을 만들고, 해당 단어들에 대해서 사전의 색인 (index)를 부여하기 위해서

from tensorflow.keras.preprocessing.text import Tokenizer

Tokenzier를 사용해서 sentence를 토큰화하고 단어사전을 만든다.
이 때 Tokenizer를 초기화할 때 num_words 라는 인자를 정하게 된다.

tokenizer = Tokenizer(num_words=100)

위의 Tokenizer(num_words=100)에서 num_words

num_words : 토큰화된 단어를 사전화할 때 사용되는 최대 단어의 수

라고 보면된다.

나는 여기서 혼용했던 것이 Tokenizer에 num_words=1 을 주었는데,
print로 word_index를 출력했을 때
{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6} 라고 주어진 sentence에 모든 토큰에 대해 인덱싱이 되어 있는 것을 보고 의아했었다.

sentences = [
    'i love my dog',
    'I, love my cat',
    'You love my dog!'
]

tokenizer = Tokenizer(num_words = 1)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)

# {'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}
  • Tokenizer의 num_words 매개변수는 토큰화된 단어들을 사전화할 때 사용되는 최대 단어 수를 지정하는 것. 즉 "단어 사전의 크기를 조절"하는 것이지, 실제로 텍스트에서 처리되는 단어의 수를 조절하는 것은 아니다.

따라서 num_words=1을 설정하더라도 fit_on_texts 메서드는 여전히 모든 단어를 처리하고, 각 단어에 대한 인덱스를 생성한다.
하지만 이 경우, 실제로 단어 사전에 포함될 수 있는 단어는 오직 하나뿐이며, 이는 가장 빈도가 높은 단어일 것이다.

  • 그래서 word_index에는 모든 단어에 대한 인덱스가 포함되지만, 이 인덱스는 사용자가 지정한 num_words의 값에 따라 제한된다.

출력된 word_index에는 모든 단어에 대한 인덱스가 포함되어 있지만, 이 중 실제로 사용되는 단어는 하나뿐일 것이다.

실제로 단어사전에 이용되는 단어가 1개 여서 핸들링하는 과정이 무의미해지므로,
아래에서 부터는 num_word의 인자값을 100으로 주면서 진행하겠다!

profile
꿈꾸는 것도 개발처럼 깊게

0개의 댓글

관련 채용 정보