[부스트캠프 AI-Tech] 8주차 Day 3

LKM·2022년 3월 15일
0

✏️학습 정리


3. Sequence to Sequence with Attention

  • Seq2Seq Model

    • many-to-many에 해당

    • 기본 구조 (encoder + decoder)

    • Attention

      • input sequence의 특정 부분에 집중하는 것이 핵심
    • Seq2Seq Model with Attention


    • Teacher forcing

      • train 시점에 직접 예측값을 input으로 넣지 않고 gt를 넣어주는 방식 (실제 환경과 다름)
    • Backpropagation

      • 1번 경로: attention 모델
      • 2번 경로: 일반 RNN 모델
      • attention을 적용할 경우 역전파의 과정이 간소화된다.
    • 다양한 attention 방법


    • attention 장점

      • 기계 번역 성능을 크게 향상시켰다.
      • decoder bottleneck 문제 해결
      • vanishing gradient 문제 해결 (backpropagation 지름길 제공)
      • 해석 가능성 제공 (decoder가 encoder의 어떤 단어에 집중했는지 확인 가능)
  • Beam Search

    • Greedy decoding

      • 현재 time step에서 최적의 답 도출
      • 선택한 최적값이 정답이 아닐 수 있다..
    • Exhaustive search

      • 매 time step마다 모든 단어를 확인 (시간복잡도가 너무 높다)
    • Beam search

      • 각 time step마다 k개의 최적해를 선택

      • global optimal solution을 제공하지는 않지만, 앞의 두가지 방법보다 효율적이다.

      • 예시 (k=2)

      • 종료 조건: 최대 time step T까지, 완료된 hypothesis의 최소 개수 n 이상일 경우

      • 평가

      • 길이 Normalize

        • why? → 단어가 늘어날 때마다 기존 확률을 더해주기 때문에 (길이가 score에 영향)
  • BLEU score

    • 단순 정확도는 기계 번역에서 지표로 쓸 수 없다.
    • Precision (정밀도)
      • 위치와 상관없이 gt와 겹치는 단어 개수 (확률), 분모가 예측 문장

      • 검색 결과 예측 (예측한 결과가 올바르게 나왔나?)

    • Recall (재현율)
      • 분모가 gt 문장

      • 실제로 검색했을 때 결과로 나온 문서들이 예측한 문서에 나왔는가?

    • F-measure (조화 평균)
    • BLEU score
      • N-gram 사용

        • 연속된 N개의 단어(문장, 문단)가 gt와 얼마나 겹치는 지 계산
      • n-gram으로 precision만 계산 (번역시 gt와 완전히 동일하지 않아도 좋은 번역일 수 있어서 recall 고려 X)

      • brevity penalty: 길이가 너무 짧은 번역들에 대한 penalty





🗣️피어세션




profile
함께 자라기

0개의 댓글