레벨이 오르자마자 벌써 프로젝트 ,,?
휴일 때문에 학습할 수 있는 날은 3일이지만
강의는 그대로 올라와버린 아이러니
이번주도 잘 해내보자,,!
newspaper3k 라는 라이브러리를 활용하면
기사 url만 넣어주면 알아서 텍스트를 다운로드하고 파싱까지 해준다,,! 신기하다.
여러 전처리 실습 코드들을 받았는데, 잘 정리해두면 요긴하게 사용할 것 같다.
strip() # 문장 양 쪽 공백 제거
rstrip() # 문장 오른쪽 공백 제거
lstrip() # 문장 왼쪽 공백 제거
from collections import OrderedDict
texts=list(OrderedDict.fromkeys(texts))
토큰화를 어떤 단위로 진행하냐에 따라서 모델의 성능에서 큰 차이가 날 수 있다.
토큰 단위는 형태소, 음절, 어절 등이 있다.
모델을 선택하는 것 뿐만 아닌 용도에 따라서 토크나이저를 잘 선택하는 것도 중요하다.
토크나이저를 구성할 때도 vocab 사이즈에 따라서 성능이 다르니 잘 고려해보자,,!
관계 분류에는 개체명도 중요해서, 엔티티 태그([ENT])를 추가하는 것이
BERT의 활용이라고 볼 수 있다.
언어모델의 feature를 잘 고려해야한다,,!
latency를 줄이기 위해서는 hidden size나 hidden layer의 수를 줄이는 방법을 사용할 수 있다. 정확도는 떨어질 수 있지만 실제 서비스에 적용했을 때 성능 저하가 체감될 정도로 크게 나타나진 않는다.
서두르지 말고,
한 발짝씩 나아가기