[TIL]Day 104

이재희·2021년 3월 13일
0

TIL

목록 보기
104/312

도서 한국어 임베딩

잠재 의미 분석 Latent Semantic Analysis
단어 사용 빈도 등 말뭉치의 통계량 정보가 들어 있는 커다란 행렬에 특이값 분해 등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법을 말한다.

잠재 의미 분석 수행 대상 행렬

  • TF-IDF 행렬
  • 단어-문맥 행렬
  • 점별 상호 정보량 행렬

NN 기반 임베딩

문장수준임베딩
ElMo BERT GPT 등등

단어수준 임베딩은 동음이어 구분 안됨.

데이터를 통채로 모델에 넣고 입출력사이의 관계를 사람의 개입없이 모델 스스로 처음부터 끝까지 이해하도록 유도하는 기법을 앤드투앤드 모델이라고 부른다.

대규모 말뭉치로 임베딩을 만든다.(프리트레인)
이후 임베딩을 입력으로 하는 새로운 딥러닝 모델을 만들고 우리가 풀고싶은 구체적 문제에 맞는 소규모 데이터게 맞게 임베딩을 포함한 모델 전체를 업데이트한다.(파인 튜닝, 전이 학습) ELMo, GPT, BERT 등이 이 방식에 해당

Downstream task == 우리가 풀고 싶은 자연어 처리의 구체적 문제
Upstream task == 다운스트임 태스트에 앞서 해결해야 할 과제. 단어/문장 임베딩을 프리트레인하는 작업

임베딩 기법 종류

  • 행렬분해
  • 예측
  • 토픽기반

점별 상호 정보량PMI
두 확률변수 사이의 상관성을 계향화하는 단위.

FastText관련
https://omicro03.medium.com/%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC-nlp-15%EC%9D%BC%EC%B0%A8-fasttext-2b1aca6b3b56

주피터 노트북 가상환경 커널에 연결
https://somjang.tistory.com/entry/Python-Jupyter-Notebook-%EC%97%90-%EA%B0%80%EC%83%81%ED%99%98%EA%B2%BD-%EC%BB%A4%EB%84%90-%EC%B6%94%EA%B0%80%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95

샐레니움 wait
https://dejavuqa.tistory.com/110

https://velog.io/@log327/Python-Selenium-Explicit-Waits-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0

용어 == Term

profile
오늘부터 열심히 산다

0개의 댓글