먼저, 필요한 라이브러리를 import 한다.
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [
'i love my dog',
'I love my cat']
tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(sentences)
word_index= tokenizer.word_index
print(word_index)
# output
{'i': 1, 'love': 2, 'my': 3, 'dog': 4, 'cat': 5}
num_words 매개변수는 시퀀스를 생성할 때 유지할 최대 단어 수에서 1을 뺀 값(빈도 기준)을 지정하여 초기화한다.
num_words의 인자는 word_index 사전이 생성되는 방식에 영향을 미치지 않는다.
다음 코드에서 100 대신 1을 전달하면 동일한 word_index에 도달하게 된다.
sentences = [
'i love my dog',
'I love my cat',
'You love my dog!'
]
tokenizer = Tokenizer(num_words=1)
tokenizer.fit_on_texts(sentences)
word_index= tokenizer.word_index
print(word_index)
# output
{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}
위의 Tokenizer 인자에 대해 조금 더 자세하게 정리해보자면,
Tokenizer의 parameter : num_words
Tensorflow의 Tokenizer를 이용해서
주어진 문장의 토큰에 따라 단어 사전을 만들고, 해당 단어들에 대해서 사전의 색인 (index)를 부여하기 위해서
from tensorflow.keras.preprocessing.text import Tokenizer
Tokenzier를 사용해서 sentence를 토큰화하고 단어사전을 만든다.
이 때 Tokenizer를 초기화할 때 num_words
라는 인자를 정하게 된다.
tokenizer = Tokenizer(num_words=100)
위의 Tokenizer(num_words=100)에서 num_words
는
num_words : 토큰화된 단어를 사전화할 때 사용되는 최대 단어의 수
라고 보면된다.
나는 여기서 혼용했던 것이 Tokenizer에 num_words=1
을 주었는데,
print로 word_index를 출력했을 때
{'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6} 라고 주어진 sentence에 모든 토큰에 대해 인덱싱이 되어 있는 것을 보고 의아했었다.
sentences = [
'i love my dog',
'I, love my cat',
'You love my dog!'
]
tokenizer = Tokenizer(num_words = 1)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)
# {'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6}
따라서 num_words=1을 설정하더라도 fit_on_texts 메서드는 여전히 모든 단어를 처리하고, 각 단어에 대한 인덱스를 생성한다.
하지만 이 경우, 실제로 단어 사전에 포함될 수 있는 단어는 오직 하나뿐이며, 이는 가장 빈도가 높은 단어일 것이다.
출력된 word_index에는 모든 단어에 대한 인덱스가 포함되어 있지만, 이 중 실제로 사용되는 단어는 하나뿐일 것이다.
실제로 단어사전에 이용되는 단어가 1개 여서 핸들링하는 과정이 무의미해지므로,
아래에서 부터는 num_word
의 인자값을 100으로 주면서 진행하겠다!