텍스트 데이터 전처리

J. Hwang·2024년 8월 23일

0

전처리 과정

선택적 전처리 (cleansing) : 대소문자 통일, 불필요한 문자 제거, 철자 교정
문장/문단 토큰화 : 마침표, 물음표 등 특수부호를 통한 구분
단어 토큰화 : 공백, 쉼표 등을 통한 구분
서브워드 토큰화 : 복합어/합성어 구분
불용어 (stopword) 제거 : 문맥적으로 의미없는 표현 제거
어간 추출 (stemming) ex) beginning → begin
표제어 추출 (lemmatization) : 언어의 원형 추출 (are, is → be)

정규 표현식 (regular expression)

정규 표현식은 문자열의 특정한 패턴을 표현하는 방법이다. 검색 (필터링) 등에 사용할 수
있다.
여기에 너무나도 잘 정리되어 있음...
https://data-scientist-han.tistory.com/147
정규 표현식에 re 라이브러리를 사용하면 텍스트에서 정보를 추출하기 매우 수월해진다.

한글 텍스트 라이브러리

KoNLPy : 한국어 형태소 분석기
Py-Hanspell : 네이버 맞춤법 검사기를 기반으로 한 라이브러리로, 한국어 맞춤법과 띄어쓰기 오류를 교정해준다.
PyKoSpacing : 띄어쓰기 라이브러리
SOYNLP : 비지도 학습 방법으로 자연어 처리를 하는 라이브러리. 신조어 등을 처리하기에 용이하다.

텍스트 데이터 시각화

텍스트 데이터는 시각화하기에 적합하지 않을 것 같지만, 아래와 같은 형태를 활용하면 효과적으로 나타낼 수 있다.

word cloud

image credit : https://www.presentermedia.com/powerpoint-clipart/idea-lightbulb-word-cloud-design-pid-25614
네트워크 시각화

image credit : https://noduslabs.com/cases/word-cloud-generator-text-network/
highlight 시각화
단순히 중요한 단어를 강조 (형광펜) 하는 것도 하나의 텍스트 시각화 기법이 될 수 있다.

Let it code

이전 포스트

이미지 데이터 EDA와 전처리

다음 포스트

3주차

0개의 댓글