자연어 이해 는 텍스트 분류, 자연어 추론 및 이야기 이해와 같은 다양한 작업을 포함하는 자연어 처리의 중요한 분야입니다. 자연어 이해로 지원되는 응용 프로그램은 질문 답변(QA)에서 자동 추론에 이르기까지 다양합니다.
BERT-QA(Question-Answering, 질문-응답) task workflow 보기
QA는 주어진 질문(Question)과 문맥(Context)의 정보에 대한 이해를 기반으로 응답하는 것이다.
SQuAD ( Stanford Question Answering Dataset, 스탠포드 질문 답변 데이터 셋 ) : 독해 dataset
➡ 지문(passage)과 그 지문(P)에 대한 질문(Q)과 답(A)을 data로 가지는 dataset
다음은 SQuAD dataset에서 제공하는 샘플 문맥과 QA이다.
P | In meteorology, precipitation is any product of the condensation of atmospheric water vapor that falls under gravity. The main forms of precipitation include drizzle, rain, sleet, snow, graupel and hail... Precipitation forms as smaller droplets coalesce via collision with other raindrops or ice crystals within a cloud. Short, intense periods of rain in scattered locations are called “showers”. |
---|---|
QA 1 | What causes precipitation to fall? gravity |
QA 2 | What is another main form of precipitation besides drizzle, rain, snow, sleet and hail? graupel |
QA 3 | Where do water droplets collide with ice crystals to form precipitation? within a cloud |
NLU sub-task의 거의 모든 벤치마크의 상위권에 위치하는 BERT에 대해서 알아보자.
task | dataset | rank | dataset의 특징 |
---|---|---|---|
NLU | LexGLUE | 1 | 법률 사례 관련 dataset |
QA | SQuAD1.1 | 8 | 500개 이상의 Wikipedia 기사에 대한 100,000개 이상의 질문-답변 쌍 |
Text 분류 | AG News | 2 | 영어 뉴스 카테고리를 4개의 label로 구분 |
LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention
We propose LUKE, a new contextualized representations pecifically designed to address entityrelated tasks. LUKE is trained to predict randomly masked words and entities using a large amount of entity-annotated corpus obtained from Wikipedia.
We introduce an entity-aware self-attention mechanism, an effective extension of the original mechanism of transformer. The proposed mechanism considers the type of the tokens words or entities) when computing attention scores.
BERT를 조사하셨군요. 기본기를 다지는건 좋다고 생각해요. 저는 BERT가 다음주에 과정이 있길래 과제만 하고 다른 공부를 했어요.