nlp 2일차

CodeMan JigGag·2023년 7월 25일

1. 데이터 수집

DB
웹 크롤링 (스크래핑), selenium, BeautifulSoup
텍스트 증식 고려 (권장하지 않음)
위키피디아, 북스코퍼스 등
기타

2. 데이터 전처리

토큰화 정제, 불용어 처리, 인코딩, 패딩 등

3. 언어 모델링

알고리즘 선택(ML, DL, DM

from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

-->
OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']

1) morphs : 형태소 추출
2) pos : 품사 태깅(Part-of-speech tagging)
3) nouns : 명사 추출

CodeMan JigGag

zigzag

이전 포스트

nlp

다음 포스트

nlp 2일차

1개의 댓글

happy

2023년 7월 25일

좋은 글 감사합니다.

답글 달기