[자연어처리]2 ...실습...

유가연·2022년 2월 11일
0

TIL

목록 보기
27/32

KoNLPy를 통한 한국어 전처리
KoNLPy는 한국어 형태소 사전을 기반으로 한국어 단어를 추출해 주는 파이썬 라이브러리입니다.

이번 실습에서는 KoNLPy를 사용하여 한국어 문장 간 유사도 측정용 데이터셋인 KorSTS 데이터셋을 전처리하도록 하겠습니다.

지시사항

변수 sent에는 sts-train.tsv파일에 저장되어 있는 KorSTS 데이터셋이 들어있습니다. 첫 5개 문장을 확인하세요.

꼬꼬마 형태소 사전(Kkma)을 사용해서 변수 sent 내 모든 문장의 명사를 nouns 리스트에 저장하세요.

Open Korean Text 형태소 사전(Okt)을 사용하여 변수 sent 내 각 문장의 형태소 분석의 결과를 pos_results 리스트에 저장하세요.

형태소 분석이 수행된 sent의 두 번째 문장의 분석 결과를 확인해보세요. 변수 sent에 stemming 기반 형태소 분석을 적용하여 sent의 두 번째 문장을 stem_pos_results 변수에 저장하세요.

tsv 파일이란?
CSV는 Column Seperated Value, TSV는 Tab Separated Value.

# 경고문을 무시합니다.
import warnings
warnings.filterwarnings(action='ignore')

import pandas as pd
from konlpy.tag import Kkma, Okt

# sts-train.tsv 파일에 저장되어 있는 KorSTS 데이터셋을 불러옵니다.
sent = pd.read_table("sts-train.tsv", delimiter='\t', header=0)['sentence1']
## 테이블 중 'sentence1' 컬럼만 불러옴

# sent 변수에 저장된 첫 5개 문장을 확인해봅니다.
print(sent[:5])

# 꼬꼬마 형태소 사전을 이용해서 sent 내 문장의 명사를 nouns 리스트에 저장하세요.
nouns = []

# 명사의 종류를 확인해봅니다.
print(set(nouns))

# Open Korean Text 형태소 사전을 이용해서 sent 내 형태소 분석 결과를 pos_results 리스트에 저장하세요.
pos_results = []

# 분석 결과를 확인해봅니다.
print(pos_results)

# stemming 기반 형태소 분석이 적용된 sent의 두 번째 문장을 stem_pos_results 리스트에 저장하세요.
stem_pos_results = []
print(stem_pos_results)
profile
유가연

0개의 댓글