파이썬

유비빅·2021년 9월 18일
0

  • 파이썬으로 텍스트파일 읽기,쓰기
  • 파이썬 워드클라우드
  • 데이터클렌징(실무에서도 8~90% 시간이 걸리는 중요작업)
  • 이미지에 맞춰 워드클라우드 응용
text = ""
with open("파이이일.txt", "r", encoding="utf-8") as f:
    lines = f.readlines()
    for line in lines:
        text+=line

print(text)
  • 파일 오픈해서 읽어오기
from wordcloud import WordCloud

wc = WordCloud(font_path=font_path, background_color="white", width=600, height=400)
wc.generate(text)
wc.to_file("result.png")
  • 워드클라우드 불러와서 만들기

❤️데이터 클렌징(Data Cleansing)이란?
전처리(preprossessing) 과정의 하나로, 자료에서 불완전하거나, 비정확하거나, 관련 없는 부분을 찾아 삭제하거나 수정하는 것을 말합니다. 테이블에 빈 칸이 있거나, 단위가 잘못되었거나, 오타가 있거나 등등의 경우에 원하는 결과를 얻을 수 없기 때문에 분석하기 전에 미리 처리를 해주는 것이죠. 우리의 경우에는 내보내기한 카카오톡을 열어보면 날짜, 시간, 프로필 이름 등의 무의미한 부분이 반복적으로 나타나기 때문에 이것들을 지워주어야 더 흥미로운, 실제로 사람들이 사용한 단어를 강조할 수 있습니다.

  • 카카오톡으로 하는 경우는 단체 톡에 제일 많이 쓰이는 이모티콘, ㅋ , ㅎ , ㅠ, ㅜ, 이런 자잘한 멘트들을 데이터 클렌징 하면서 아 이렇게 줄여갈 수 있구나를 직접 경험할 수 있었습니다
from PIL import Image
import numpy as np

mask = np.array(Image.open('cloud.png'))
wc = WordCloud(font_path=font_path, background_color="white", mask=mask)
wc.generate(text)
wc.to_file("result_masked.png")
  • 원하는 이미지에 워드클라우드 넣기
    이미지는 원하는 이미지에 넣을 수 있으나 테두리가 있으면 더 좋다고 하셨고 주신 예제 이미지 그대로 해 본게 위의 예제!

0개의 댓글