워드클라우드는 그냥 모듈 활용방법에 대해 알려주는 강의였다.
나이브베이즈 분류와 count & tfidf vectorize가 중요한듯 했는데, 대충 복기해보자면
나이브베이즈는 라벨링이 되어있고 count & tfidf vectorize는 라벨링이 되어있지 않았다.
하지만 언어를 선형대수로 변경한다는 점은 동일한 듯 하다.
음... 결국 count & tfidf vectorize 또한 나이브 베이즈 기반인 듯 하다.
예전에 가우시안 vs 베이즈 통계학에 대해 대충 보긴 했었는데... 베이즈 통계학은 인간의 의도? 기대? 등의 영향을 받는다는 식의 내용이었던 것 같다.
베이즈 통계학은 무척 신기했던 것만 기억난다. 이렇게도 볼 수 있나?
tfidf vectorization은 신기하다. 다수의 문서를 분석하는데, 특정 문서에서 자주 등장하는 단어는 중요한 단어고, 모든 문서에서 자주 등장하는 단어는 중요하지 않은 단어로 판단한다.
count & tfidf vectorize 세션에서는 서로 다른 문장의 거리를 측정하였다. 문장의 거리를 측정하다니. 내가 AI 공부를 하지 않았다면 문장의 거리를 측정한다는 말이 시적으로 들렸을 것 같다. 하지만 실제로 수치적으로 측정을 한다. 그래서 거리가 가까우면 유사한 문장이고, 멀면 다른 문장인거지.
한글 형태소 분석에 대해서는 음... 아직 자연어처리 초반 단계라 그런지 진짜 살살하는 느낌? 이전에 운 좋게(?) 자연어처리 프로젝트를 했었는데, 조사를 제외하는 것이 수치가 무조건 좋았다. 그럴 수밖에 없는게 조사는 별다른 의미가 있는게 아니니까.
음... 다만 진화한 AI는 조사가 포함되면 더 내용을 잘 분석할 듯 하다. 왜냐하면 chatGPT가 이미 그것을 보여주고 있지 않나? 한글을 너무 잘쓰니까. 조사가 어떤 방식으로든 모델에 학습되지 않았을까? 흠... 이거는 내가 모르는 내용이다.
아무튼 낮은 단계의 자연어처리에서는 자연어를 전처리할 때 의미를 담고있지 않은 조사를 다 제거해주면 더 분석하기 좋은.. 왜 이 얘기를 계속 하고 있지? 조사를 제거하지 않는 것을 보니 좀 아쉬웠던 것 같다.