7/1 Today I Learned -2

boks·2024년 7월 1일
0

자연어 처리

목록 보기
6/14
post-thumbnail

📖 학습한 내용

  • 자연어 처리 설치
  • 형태소 분석 개요
  • 워드클라우드 이상한나라의 엘리스

📖 핵심내용

📌 설치 및

  • 설치
    새로운 콘다환경에서 ipython jupyter 정도를 설치한 뒤 code 환경에서 실행
!conda update conda
!pip install --upgrade pip
!pip install konlpy
!pip install tweepy==3.10.0
!conda install -y -c conda-forge jpype1==1.0.2
!conda install -y -c conda-forge wordcloud
!conda install -y nltk
!conda install -y scikit-learn
  • 다운로더 실행
import nltk
nltk.download()


-> puntk, stopwords 다운로드

📌 형태소 분석 개요

konlpy

from konlpy.tag import Kkma
from konlpy.tag import Hannanum
from konlpy.tag import Okt

한글을 쉽게 분석할 수 있게 해주는 패키지

형태소란


-> 어절과 음절 사이의 것
-> 언어의 최소 의미 단위

📌 워드클라우드 - 이상한나라의 엘리스

from wordcloud import WordCloud, STOPWORDS
import numpy as np
from PIL import Image
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
  • 텍스트 가져와서 읽기
text = open(r"E:\zerobase\data\nltk\06_alice.txt").read()
print(text)
  • 이미지 가져오기
alice_mask = np.array(Image.open(r"E:\zerobase\data\nltk\06_alice_mask.png"))


-> 출력 형태가 넘파이임을 확인!

  • 스탑워즈 세팅
stopwords = set(STOPWORDS)
stopwords

-> 불용사전인듯

  • 워드 클라우드 모듈
    자체적으로 단어를 추출해서 빈도수를 조사하고 정규화하는 기능을 가지고 있다.

출력

📖 흥미로운 점 / 새로 알게된 점

📖 어려운 부분

wc.generate(text) 부분에서 폰트 관련 오류가 나는 문제가 있다. (ValueError: Only supported for TrueType fonts)

📖 이후 학습 계획

  • 워드클라우드 사용 및 감정 분석
profile
설계엔지니어의 변신

0개의 댓글