KoNLPy를 통한 한국어 전처리
KoNLPy는 한국어 형태소 사전을 기반으로 한국어 단어를 추출해 주는 파이썬 라이브러리입니다.
이번 실습에서는 KoNLPy를 사용하여 한국어 문장 간 유사도 측정용 데이터셋인 KorSTS 데이터셋을 전처리하도록 하겠습니다.
변수 sent에는 sts-train.tsv파일에 저장되어 있는 KorSTS 데이터셋이 들어있습니다. 첫 5개 문장을 확인하세요.
꼬꼬마 형태소 사전(Kkma)을 사용해서 변수 sent 내 모든 문장의 명사를 nouns 리스트에 저장하세요.
Open Korean Text 형태소 사전(Okt)을 사용하여 변수 sent 내 각 문장의 형태소 분석의 결과를 pos_results 리스트에 저장하세요.
형태소 분석이 수행된 sent의 두 번째 문장의 분석 결과를 확인해보세요. 변수 sent에 stemming 기반 형태소 분석을 적용하여 sent의 두 번째 문장을 stem_pos_results 변수에 저장하세요.
❓ tsv 파일이란?
CSV는 Column Seperated Value, TSV는 Tab Separated Value.
# 경고문을 무시합니다.
import warnings
warnings.filterwarnings(action='ignore')
import pandas as pd
from konlpy.tag import Kkma, Okt
# sts-train.tsv 파일에 저장되어 있는 KorSTS 데이터셋을 불러옵니다.
sent = pd.read_table("sts-train.tsv", delimiter='\t', header=0)['sentence1']
## 테이블 중 'sentence1' 컬럼만 불러옴
# sent 변수에 저장된 첫 5개 문장을 확인해봅니다.
print(sent[:5])
# 꼬꼬마 형태소 사전을 이용해서 sent 내 문장의 명사를 nouns 리스트에 저장하세요.
nouns = []
# 명사의 종류를 확인해봅니다.
print(set(nouns))
# Open Korean Text 형태소 사전을 이용해서 sent 내 형태소 분석 결과를 pos_results 리스트에 저장하세요.
pos_results = []
# 분석 결과를 확인해봅니다.
print(pos_results)
# stemming 기반 형태소 분석이 적용된 sent의 두 번째 문장을 stem_pos_results 리스트에 저장하세요.
stem_pos_results = []
print(stem_pos_results)