저자: Valentin Hofmann, Janet B. Pierrehumbert (University of Oxford), Hinrich Schutze (LMU Munich)
연도: 2020
제출: EMNLP
링크: https://aclanthology.org/2020.emnlp-main.316/
목표
- 사전학습된 언어모델이 파생어를 잘 생성하는가 ?
- 파생 형태론에 대한 PLM 지식을 분석한 최초의 연구
- 예시: the coat is ___ + wear -> wearable
- PLM의 subword 단위 단어 분절 (e.g. BERT WordPiece) 의 token 중 파생 접사가 많으므로 파생형태론 지식을 보유하고 있을 가능성이 높다
- 모델의 단어 집합을 형태론적 정보를 반영하여 구성할 경우 모델의 성능을 개선할 가능성이 높아짐을 제시
배경
- 접사의 생산성: 한 형태소를 새로운 어휘소를 만드는 데 사용 가능한 정도
- 본 연구는 생산적으로 형성된 파생어 (생산적인 접사로 만든 단어)에 한정
- 저빈도 어휘가 전체 코퍼스에서 생산적인 접사로 파생되는 경우가 많다
- 파생어 생성 (DG) task
- context sentence, base -> 모델 -> 파생어
설계
- 모델

- BERT-base + DCL (Derivational Classifiation Layer)
- BERT+: only train DCL
- BERT
- LSTM
- Random Baseline
- 데이터
- 구축
- [파생어가 마스킹된 context sentence, base, 파생어]
- 파생어 판단 알고리즘
- 접두사, 접미사, base 를 입력 받아 단어가 파생 가능한 지 여부를 체크
- BERT 의 단어 집합을 활용하여 파생어 판단 알고리즘의 input을 만듦
- 접사
- base 중 3음절 이상의 항목 중 이미 접사로 식별된 항목을 토대로 추출
- reddit 데이터 활용
- context sentence
- 기존의 언어 규범을 따르지 않기 때문에 생산적으로 형성된 파생어 추출에 적합하다
- base에 접사를 최소 1개 결합하여 파생 가능한 단어를 포함하는 문장 중 10~100 단어인 문장을 추출
- 분류
- 빈도
- 구성 요소: P (접두사 1개), S (접미사 1개), PS (접두사 1개, 접미사 1개)
- test, val, test 에 중복되는 것(SHARED)과 안되는 것(SPLIT)으로 분류
- 실험
- Cloze test 를 분류 문제로 수행
- 주어진 문장과 base 를 보고 빈칸에 나타날 가능성이 가장 높은 접사를 예측
- MRR (Mean Reciprocal Rank): 정답이 예측된 순위의 역수의 총합의 평균
- 접사 a에 대한 MRR 값 / 전체 접사에 대한 최종 MRR 값
- input segmentation 의 다양화
- HYP: un,-,allowed
- INIT: un, allowed
- TOKEN: un, all##, ##owed
- PROJ
결과