어간(stem): 단어의 의미를 담고있는 단어의 핵심 부분 접사(affix): 단어에 추가적인 의미를 주는부분 Sentence (문장)자연어 처리를 위한 문장단위로 입력예 : I love natural language processing.Tokenization(토큰화)
워드 클라우드(Word Cloud)텍스트 데이터 분석에서 가장 단순하고 기본적인것으로 여러 개의 문서에서 가장 많이 사용된 단어를 파악하는 것 (시각화)ex ) 대롱령의 연설문에서 사용된 단어들의 빈도 분석—> 사용 라이브러리 : wordcloud, matplotlib
1. 토픽 모델링으로 주제찾기 토픽 모델링으로 주제찾기 > 토픽모델링은 텍스트 마이닝 기법 중에서 가장 많이 활용 되는 기법 중 하나로, 다양한 문서 집합에 대헤서 주제 파악 할때 쓰는 방법 예측 보다는 내용의 분석 에 중점적으로확인하는 기법 >
단어가 간 관계 파악의 필요성RNN의 한계Self-Attetntion의 등장 배경과 의미자연어 문장은 단어들 사이의 복잡한 관계로 구성되어있다. 예를 들어 “The animal didn’t cross the street because it was too tired.”
지난시간 복습 Encoding입력(Token + Positional Encoding) → N개의 블록 만큼 반복각 블록: Multi-Head Attention → Add & Norm → Feed Forward → Add & NormDecoder출력(Token + Pos