잡플래닛 리뷰 데이터를 전처리하는 과정 정리
위 사진과 같이 줄 바꿈, 오타, 특수문자 등이 혼재되어 있음
def no_special(text):
text = text.replace('\n','')
text = re.sub('[^가-힣a-zA-Z]', ' ', text)
return text
다음과 같은 함수를 통해 줄 바꿈 기호 제거 및 오타와 특수문자 제거
결과
Raw 데이터이기에 띄어쓰기 오류와 오타 등이 여전히 존재하여 모델링 시 여러 문제를 일으킬 것이라 예상
py-hanspell 패키지를 이용하여 맞춤법 검사 및 교정
pip install py-hanspell
다음과 같은 코드로 쉽게 설치할 수 있으나, pip에서 오류가 발생해 다른 방법을 통해 설치
상기 모듈의 깃허브에서 folk한 후 clone or zip 파일을 받은 후 압축 해제
python setup.py install
해당 폴더로 이동 후 설치하여 모듈 설치
내용 | 설명 |
---|---|
result | 문장 내에 오류 유무 T/F 값 return |
original | 원 문장 return |
checked | 검사 후 문장 return |
errors | 검사 후 문장 return |
words | 검사 후 문장 split 및 오류 종류 dict return |
time | 총 요청 시간 |
Int | Error |
---|---|
0 | 문제 없음 |
1 | 맞춤법 의심 |
2 | 띄어쓰기 의심 |
3 | 표준어 의심 |
4 | 통계적 교정에 따른 단어 혹은 구절 |
전
후
야무지게 교정 완료
이후 불용어처리를 위해 konlpy의 mecab을 활용하려 하였으나 Local에서 오류 발생하여 colab에서 진행
%%bash
apt-get update
apt-get install g++ openjdk-8-jdk python-dev python3-dev
pip3 install JPype1
pip3 install konlpy
%env JAVA_HOME "/usr/lib/jvm/java-8-openjdk-amd64
%%bash
bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)
pip3 install /tmp/mecab-python-0.996
import konlpy
from konlpy.tag import Kkma, Komoran, Hannanum, Okt
from konlpy.utils import pprint
from konlpy.tag import Mecab
차례대로 실행하여 환경 구성 완료
def stopword_preprocessing(text):
stop = stopwords
text = str(text)
tokens = mecab.morphs(text)
tokens = [token for token in tokens if token not in stop]
text = " ".join(tokens)
return text
다음 함수를 통해 불용어처리 완료