[boostcamp] Day 36. 레 벨 업

Jaeyeon Kim·2023년 5월 2일

boostcamp

Naver Boostcamp AI Tech

목록 보기

28/29

레벨이 오르자마자 벌써 프로젝트 ,,?

휴일 때문에 학습할 수 있는 날은 3일이지만
강의는 그대로 올라와버린 아이러니

이번주도 잘 해내보자,,!

오늘 배워간 것

뉴스 전처리

newspaper3k 라는 라이브러리를 활용하면
기사 url만 넣어주면 알아서 텍스트를 다운로드하고 파싱까지 해준다,,! 신기하다.

여러 전처리 실습 코드들을 받았는데, 잘 정리해두면 요긴하게 사용할 것 같다.

끝에 위치한 공백 제거

strip() 	# 문장 양 쪽 공백 제거
rstrip()	# 문장 오른쪽 공백 제거
lstrip()	# 문장 왼쪽 공백 제거

중복 문장 제거

from collections import OrderedDict
texts=list(OrderedDict.fromkeys(texts))

BERT Application

토큰화를 어떤 단위로 진행하냐에 따라서 모델의 성능에서 큰 차이가 날 수 있다.
토큰 단위는 형태소, 음절, 어절 등이 있다.
모델을 선택하는 것 뿐만 아닌 용도에 따라서 토크나이저를 잘 선택하는 것도 중요하다.
토크나이저를 구성할 때도 vocab 사이즈에 따라서 성능이 다르니 잘 고려해보자,,!

관계 분류에는 개체명도 중요해서, 엔티티 태그([ENT])를 추가하는 것이
BERT의 활용이라고 볼 수 있다.

언어모델의 feature를 잘 고려해야한다,,!

latency를 줄이기 위해서는 hidden size나 hidden layer의 수를 줄이는 방법을 사용할 수 있다. 정확도는 떨어질 수 있지만 실제 서비스에 적용했을 때 성능 저하가 체감될 정도로 크게 나타나진 않는다.

서두르지 말고,
한 발짝씩 나아가기