왜 나는 NLP에 관심이 있는가?

0

NLP

목록 보기
1/4

My Interest in NLP

NLP를 좀 더 깊게 공부해보고 싶어서 Wanted의 프리온보딩코스에 지원했다.
나의 꿈은 추천시스템 엔지니어가 되는 것. 많은 산업군에서 추천시스템을 고객 유지 마케팅으로 사용한다. 마케팅을 공부했던 경영학도로서 (?) 추천시스템만큼 강력한 마케팅 전략이 어딨을까? Deep-learing-based-Recommendation System is a future of marketing 이다! 하는 생각으로 추천시스템 엔지니어의 꿈을 키웠다. 객관적인 데이터를 근거로 한 의사결정과 추천이라는게 아름답게 느껴졌달까!

최근에 item-user 매칭 프로젝트를 진행하며 다음 단계의 성장을 위해 두 가지가 필요함을 깨달았다.
1) 딥러닝 모델의 구조와 원리를 배우며 정제된 데이터로 모델을 구현해보는 것과, 실제 현업의 데이터로 원하는 문제를 해결하기 위해 SOTA 모델을 customize하는 것은 다르다! 나에겐 후자의 경험이 더욱 필요하구나!
2) 추천시스템 앞단에는 NLP나 CV가 필요하다. item의 feature을 만들기 위해 text 에서 tag를 추출하거나, image로부터 feature를 추출해야하기 때문이다.

이번 프리온보딩코스에서는 NLP를 Pytorch로 배울 수 있다. 좀 더 code적으로, Tensorflow가 아닌 Pytorch로 공부해볼 수 있는 좋은 기회인 것이다.
(Tensorflow와 Pytorch 중 무엇을 배워야 하는 것은 다른 포스트에 남겨놔야징.)


Interesting Task in NLP


1. Multi-Label Text Classification

문제 정의

  • Context가 들어왔을 때, 어떤 tag를 가지는지 분류하는 문제.
  • 검색 엔진에 키워드를 넣었을 때, 어떤 context가 상위에 노출되는지, 블로그에 글을 작성하고 발행하기 전 자동으로 태그를 부여해주는 것 등에서 사용되는 task이다.

TagBERT

데이터

  • Online QnA, Open source community (ex. StackOverflow)
  • context가 있고, 적절한 tag 가 있는 데이터
  • kaggle의 freecode datasets

2. Word Embedding

문제 정의

  • 비정형화된 Text를 숫자로 바꿔줌으로써 사람의 언어를 컴퓨터 언어로 번역하는 것.
  • 임베딩된 벡터는 similarity, clustering, classification, deep learning model 등 다양하게 활용된다.

FastText

  • 모델: Facebook (현 메타)에서 만든 모델로, 다른 워드임베딩 기법인 Word2Vec과 자주 비교된다. FastText는 노이즈가 많은 데이터에서 성능이 좋으며, 사전에 없는 단어는 예측하지 못하는 OOV(Out Of Vocabulary)문제에 대응할 수 있다는 장점을 가지고 있다.
  • 깃헙: facebookresearch/fastText

데이터

  • 모든 언어가 데이터가 될 수 있다. FastText의 경우 wikipedia의 데이터를 기반으로 학습되었다.
profile
학습의 마무리는 '나의 언어로 설명하기'가 아닐까?

5개의 댓글

comment-user-thumbnail
2022년 2월 21일

좋은글 감사합니다

답글 달기
comment-user-thumbnail
2022년 2월 21일

배우고 갑니다:)

답글 달기
comment-user-thumbnail
2022년 2월 21일

텍스트 분류에 대한 간략한 설명 감사합니다 :)

답글 달기
comment-user-thumbnail
2022년 2월 21일

FastText에 대한 설명 감사합니다!

답글 달기
comment-user-thumbnail
2022년 2월 21일

이제 마케팅과 추천시스템은 정말 뗄래야 뗄 수 없는 관계가 되었죠! 분야가 발전함에 따라 공부하는 노력을 응원합니다. 지원하고자 하는 분야에서 요구할 수 있는 task를 분석한 글 잘 읽고갑니다.

답글 달기