텍스트 데이터 전처리

J. Hwang·2024년 8월 23일
0

전처리 과정

  • 선택적 전처리 (cleansing) : 대소문자 통일, 불필요한 문자 제거, 철자 교정
  • 문장/문단 토큰화 : 마침표, 물음표 등 특수부호를 통한 구분
  • 단어 토큰화 : 공백, 쉼표 등을 통한 구분
  • 서브워드 토큰화 : 복합어/합성어 구분
  • 불용어 (stopword) 제거 : 문맥적으로 의미없는 표현 제거
  • 어간 추출 (stemming) ex) beginning → begin
  • 표제어 추출 (lemmatization) : 언어의 원형 추출 (are, is → be)

정규 표현식 (regular expression)

정규 표현식은 문자열의 특정한 패턴을 표현하는 방법이다. 검색 (필터링) 등에 사용할 수
있다.
여기에 너무나도 잘 정리되어 있음...
https://data-scientist-han.tistory.com/147
정규 표현식에 re 라이브러리를 사용하면 텍스트에서 정보를 추출하기 매우 수월해진다.


한글 텍스트 라이브러리

  • KoNLPy : 한국어 형태소 분석기
  • Py-Hanspell : 네이버 맞춤법 검사기를 기반으로 한 라이브러리로, 한국어 맞춤법과 띄어쓰기 오류를 교정해준다.
  • PyKoSpacing : 띄어쓰기 라이브러리
  • SOYNLP : 비지도 학습 방법으로 자연어 처리를 하는 라이브러리. 신조어 등을 처리하기에 용이하다.

텍스트 데이터 시각화

텍스트 데이터는 시각화하기에 적합하지 않을 것 같지만, 아래와 같은 형태를 활용하면 효과적으로 나타낼 수 있다.

profile
Let it code

0개의 댓글