키워드
- 토큰화
- 공백 기반
- 형태소 기반
- Wordpiece
- 유사도 계산: 코사인 기반
- Distributed representation
자연어 | 인공어 |
---|---|
context sensitive language | context free language |
context sensitive grammar | context free grammar |
# 100개의 단어를 256차원의 속성으로 표현
embedding_layer = tf.keras.layers.Embedding(input_dim=100, output_dim=256)
공통 문제: OOV(Out-Of-Vocabulary)
공통 문제: 동음이의어 처리 불가
- 해결: Contextualized Word Embedding
- ELMo - the 1st Contextualized Word Embedding
Going Deeper의 시작일이다. CV와 NLP로 나뉜 시점인데, 고민하다 그냥 처음 과정을 시작할 때의 생각대로 NLP를 선택했다. CV도 재밌긴 했는데 원래부터 문법 같은 언어학에도 관심이 있어서 NLP를 선택했다. 이렇게 보면 이제까지 배운 것들이 아예 쓸모없는 것들은 아니었구나 싶은 생각이 들기도 한다. 오늘은 NLP에서 쓰이는 전처리 기법에 대해 배웠는데 솔직히 어떨 때 어떤게 쓰인다 정도만 기억해도 좋을 거 같다. 지금 그냥 Word2Vec이 있다..만 기억날 거 같은 불안함이 있기 때문에.. 원리는 나중에도 나올테니 그때 가서 익히는 것으로 하자. 그땐 정말 미루면 안된다..
Going Deeper 1일차에 배운 내용을 바탕으로 실습을 진행했다. 내용을 정리하려고 했는데 실습 페이지를 작성하는 데에 신경 쓰느라 따로 정리하진 않았다. 내일 오전시간까지 마무리라고 해서 아마 그때까지 시간을 다 쓸 거 같다.