딥러닝 자연어처리 학습내용 정리 - 2

HONEYCARON·2021년 8월 2일
0

Vectorization

  • 원-핫 인코딩: 각 단어에 고유한 정수 인덱스를 부여하고, 해당 인덱스 원소는 1, 나머지는 0인 벡터
  • DTM(Document Term Matrix): 각 단어는 고유한 정수 인덱스를 가지며, 해당 단어의 등장 횟수를 해당 인덱스의 값으로 가짐 (Bag of Words로 표현)
  • TF-IDF: DTM에서 중요한 단어에 가중치를 주는 방식
    - 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단함
    - log를 씌우는 이유는 희귀 단어들에 엄청난 가중치가 부여될 수 있기 때문
    - 문서간 유사도를 구할 수 있음

Machine Learning

  • 머신 러닝 모델 기본 과정:

    가설 수립 - 손실 함수 정의 - 손실 함수 최소화를 위한 학습 알고리즘 설계

  • 손실 함수(비용 함수)를 최소화하는 매개변수(w와 b)를 찾는 것이 목표 -> 옵티마이저 사용
종류목표가설손실 함수
선형 회귀연속적인 값 예측y=wx+b평균 제곱 오차(MSE)
로지스틱 회귀이진 분류y=sigmoid(wx+b)Cross-Entropy
소프트맥스 회귀다중 클래스 분류y=softmax(wx+b)Cross-Entropy
  • 소프트맥스 회귀는 각 카테고리를 원-핫 인코딩해야 함
  • 은닉층: 입력층과 출력층 사이에 층을 추가, 보통 데이터가 많을 때 사용
  • 텍스트 분류: 주어진 텍스트가 이미 정의된 카테고리 중 어디로 분류되어야 하는지 예측
    (예: 언론사 뉴스 카테고리 분류, 사용자 리뷰 긍정/부정 분류)
profile
AI 전문가(진)

0개의 댓글