Mind the Gap: Assessing Temporal Generalization in Neural Language Models

jihyelee·2023년 5월 15일
0

Mind the Gap: Assessing Temporal Generalization in Neural Language Models
NeurIPS 2021 Spotlight

분야 및 배경지식

  • OoD (Out-of-Distribution) generalization
    • 성능을 향상시키고 robustness를 증대시키기 위해 사용
    • domain이나 topic에 대한 distributional shift에 대한 연구가 많이 존재
  • Continual Learning
    • 연속학습이란 과거에 배운 information을 잊지 않으면서도 새로운 지식을 연속적으로 누적시키는 학습 방법
    • 자연어의 단어와 문맥의 분포는 빠르게 변화하기 때문에 이에 대해 continual learning을 적용하여 해결하는 방식 또한 새로운 연구분야로 떠오름 (continual knowledge learning)

문제

  • 실제 세상은 역동적이고 끊임없이 변화하나, 현재의 Language Model의 패러다임은 시간과 무관하게 정적(static)
  • 현재 평가기준의 한계
    • 현재는 사전학습된 데이터와 시간적으로 겹치는(overlap) 태스크나 벤치마크로 평가를 진행
    • 1) 학습 시점 이후의 future data에 대해서도 모델이 일반화(generalization)를 잘 할 수 있을지 판단할 수 없음
    • 2) 평가 태스크가 사전학습 태스크에 포함될 때 나타나는 test data contamination(테스트 데이터 오염)의 위험을 증가시킴

해결책

  • 시간적 일반화(temporal generalization)을 측정할 수 있는 새로운 벤치마크와 실험들
  • 데이터셋
    • time-stratified setup
      • 학습 데이터(-2017), 테스트 데이터(2018-19)로 구성
      • 겹치지 않는 시간대로 구성
    • control setup
      • 학습 데이터와 테스트 데이터의 시간대 겹침
  • 측정방식
    • 시간에 따른 성능저하(temporal degradation)를 측정하기 위해 relative perplexity 비교
  • 가능한 해결책
    • dynamic evaluation (continual learning)
    • 1) dynamic evaluation이란, 새로운 데이터에 대해 gradient descent를 수행함으로써 사전학습된 모델의 파라미터를 연속적으로 업데이트 하는 것
    • 2) future data에 대한 일반화 성능을 높일 수 있으나(+), 과거의 데이터에 대해 catastrophic forgetting 야기(-)

의의 (실험 결과)

  • temporal generalization 어려움
    • time-stratified model이 미래의 발화(future utterance)에 대해 성능이 더 떨어짐
    • 학습 시점에서 더 멀리 떨어진 데이터를 예측할수록 성능이 더욱 떨어짐
  • 품사단위 분석
    • 시간이 지남에 따라 common noun, proper noun(named entity), number의 성능 저하가 심화됨
  • 토픽단위 분석
    • lifestyle보다 politics, sports와 같은 주제에 대해서 시간에 따른 성능 저하가 심함
  • 사회의 변화에 따라 새로운 맥락에서 등장한 표현들(emerging new words)에 대해 모델이 어려움을 겪음
    • model struggling with concepts associated with cultural and sociological changes on which public perception and discourse have evolved over time
    • 예: MeToo, BlackLivesMatter, COVID-19
  • 새롭게 등장한 단어의 경우 처음 생성되었을 경우 perplexity가 높으나(=성능이 낮음) 동일 단어를 두 번째 생성해낼 경우 perplexity가 낮아짐 (단, Transformer context 내에서 첫 번째 단어가 존재할 경우)
  • 모델의 크기는 temporal generalization에 크게 중요하지 않음
  • knowledge-intensive downstream task(지식집약적 태스크)에 outdated LM이 미치는 영향이 더욱 큼

한계

  • 다양한 downstream task에 대한 연구 부족
  • 새로운 문제의식을 적절히 제시하였으나, 해결책이 약함 (future work)
  • 실증적 연구를 통해 근거를 제시하였으나 intuition과 크게 다르지 않은 예상 가능한 분석
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP), AI Researcher at LG CNS AI Lab

0개의 댓글