[CS224n] Lecture 9 - Practical Tips for Final Projects

tobigsNLP·2020년 12월 31일
2

CS224n Review

목록 보기
9/16
post-thumbnail

작성자 : 투빅스 14기 민거홍

Contents

Lecture 9는 NLP 연구 전반과 CS224n 최종 프로젝트에 대해 다룹니다.
1. Starting Research
2. Review of Gated Neural Sequence Models
3. MT Topics
4. Research Evaluation, others
5. References


1. Starting Research

CS224n 최종 프로젝트

CS224n 프로젝트는 1) SQuAD Q&A 프로젝트나 2) 자유 주제 중 하나를 골라 진행합니다.
!




좋은 연구란?

연구는 새로운 지식을 차출하고 그 지식을 효과적으로 전달하는 행위입니다!
연구는 매우 중요합니다!

  • 새로운 지식을 만듭니다!!
  • 인류의 삶의 질을 높입니다!!
  • 중요한 문제에 대한 관심을 끌어 모읍니다. (예시: COVID-19 논문)
    좋은 연구는 4가지 요소를 충족합니다:
  • Novel (새로운 주제를 다루고)
  • Generalizable (일반화 될 수 있어야하고)
  • Valuable (새로운, non-trivial한 관점을 제시해야 하고)
  • Valid (논문을 토대로 내용을 검증할 수 있도록 empirical하고 quatitative하고 작성해야 합니다)

NLP 연구 예시

NLP 연구는 몇가지 대분야로 나눌 수 있습니다.

  • 모델의 application을 찾아보고 어떻게 효율적으로 적용할 지 찾는 연구
  • 복잡한 neural architecture을 구현해보고 특정 데이터에 대한 성능을 측정하는 연구
  • 새롭거나 기존의 NN 모델을 구상 후 구현하여 실험적인 데이터를 토대로 성능 향상을 보여주는 연구
  • 그냥 새로운 연구!
  • State of the Art 모델들 도장깨는 연구






NLP 연구에서 '데이터'는 매우매우 중요합니다.

연구에 적절한 데이터를 찾는 건 매우 중요합니다. 성능, testing등을 위해 최소 만개의 레이블 된 데이터가 필요합니다.

데이터를 찾는 방법은 다양하지만 크게 3가지 방법으로 나눠질 수 있습니다.

  • 직접 데이터를 구한 후 전처리 하고 레이블링 하기
  • 기존의 프로젝트에서 구한 데이터 / 기업에서 갖고 있는 데이터
  • (가능하다면 제일 편한 방법) 공개되고, 잘 관리된 dataset 활용하기 (예시: 캐글, AIHub, AI데이터가공바우처사업, 등등)


2. Review of Gated Neural Sequence Models

3. MT Topics


BLEU MT 메트릭





4. Research Evaluation, others

데이터셋 분류 (train/dev/test)



연구 방법론



5. References

profile
2020 투빅스 텍스트 세미나

0개의 댓글