NLP를 좀 더 깊게 공부해보고 싶어서 Wanted의 프리온보딩코스에 지원했다.
나의 꿈은 추천시스템 엔지니어가 되는 것. 많은 산업군에서 추천시스템을 고객 유지 마케팅으로 사용한다. 마케팅을 공부했던 경영학도로서 (?) 추천시스템만큼 강력한 마케팅 전략이 어딨을까? Deep-learing-based-Recommendation System is a future of marketing 이다! 하는 생각으로 추천시스템 엔지니어의 꿈을 키웠다. 객관적인 데이터를 근거로 한 의사결정과 추천이라는게 아름답게 느껴졌달까!
최근에 item-user 매칭 프로젝트를 진행하며 다음 단계의 성장을 위해 두 가지가 필요함을 깨달았다.
1) 딥러닝 모델의 구조와 원리를 배우며 정제된 데이터로 모델을 구현해보는 것과, 실제 현업의 데이터로 원하는 문제를 해결하기 위해 SOTA 모델을 customize하는 것은 다르다! 나에겐 후자의 경험이 더욱 필요하구나!
2) 추천시스템 앞단에는 NLP나 CV가 필요하다. item의 feature을 만들기 위해 text 에서 tag를 추출하거나, image로부터 feature를 추출해야하기 때문이다.
이번 프리온보딩코스에서는 NLP를 Pytorch로 배울 수 있다. 좀 더 code적으로, Tensorflow가 아닌 Pytorch로 공부해볼 수 있는 좋은 기회인 것이다.
(Tensorflow와 Pytorch 중 무엇을 배워야 하는 것은 다른 포스트에 남겨놔야징.)
문제 정의
- Context가 들어왔을 때, 어떤 tag를 가지는지 분류하는 문제.
- 검색 엔진에 키워드를 넣었을 때, 어떤 context가 상위에 노출되는지, 블로그에 글을 작성하고 발행하기 전 자동으로 태그를 부여해주는 것 등에서 사용되는 task이다.
TagBERT
- 모델: 사전 학습된 BERT 기반의 TagBERT 모델은 전통적인 태깅 모델보다 성능이 좋을 뿐만 아니라, 기존의 태그 수가 많아질 경우 precision이 떨어지는 문제에서도 좋은 성능을 보였다.
- 논문: Tag Recommendation for Online Q&A Communities based on BERT Pre-Training Technique
- 코드: Bert-Based-Tag-Recommendation
- 키워드: tag recommendation, Multi-Label Text Classification, BERT, TAG
데이터
- Online QnA, Open source community (ex. StackOverflow)
- context가 있고, 적절한 tag 가 있는 데이터
- kaggle의 freecode datasets
문제 정의
- 비정형화된 Text를 숫자로 바꿔줌으로써 사람의 언어를 컴퓨터 언어로 번역하는 것.
- 임베딩된 벡터는 similarity, clustering, classification, deep learning model 등 다양하게 활용된다.
FastText
- 모델: Facebook (현 메타)에서 만든 모델로, 다른 워드임베딩 기법인 Word2Vec과 자주 비교된다. FastText는 노이즈가 많은 데이터에서 성능이 좋으며, 사전에 없는 단어는 예측하지 못하는 OOV(Out Of Vocabulary)문제에 대응할 수 있다는 장점을 가지고 있다.
- 깃헙: facebookresearch/fastText
데이터
- 모든 언어가 데이터가 될 수 있다. FastText의 경우 wikipedia의 데이터를 기반으로 학습되었다.
좋은글 감사합니다