Frontiers of Artificial Intelligence and Applications(FAIA)의 International Conference on Legal Knowledge-based Systems(JURIX)임. IF는 검색해도 안 나옴
https://doras.dcu.ie/22806/에서 지적한 것과 같이, legal document collections는 professional knowledge가 필요한 수준이 일반 collection과는 궤를 달리함. 그래서 limited & specialzied될 수밖에 없고, narrow field(lease contracts, financial products, court decision 등)만을 cover할 수밖에 없음.
본 연구에서는 generalized LM이 legal information task handling에 적합한지를 보고 그 한계를 논할 것임. legal document에서 공통적으로 등장하는 specific feature(긴 문장들, 일상적으로 사용되는 단어와 추상적인 concept의 혼합, relevance의 모호한 정의 등)가 부정적으로 작용하는 것을 확인했음
본 연구진은 Legal Information Retrieval을 pairwise relevance score problem으로 치환하여 generalized LM의 finetuning으로 해결하고자 하였음. 긴 문장은 summarizing으로 해결
rq1 summary encoding을 long documents의 dense representation으로 사용할 수 있는가?
rq2 LM의 pretraining과 finetuning을 legal language 학습에 사용할 수 있는가?
본 연구진은 ranking problem을 pairwise relevance classification problem으로 재구성하였음. query case와 candidate case의 pair에서 candidate case가 relevant한지, irrelevant한지 classify. 각 query에 대해 query & candidate pair가 positive인지 probability를 계산하고 probability(score)에 따라 ranking함
[CLS]
token의 embedding 사용
fc layer 얹어서 true classification 수행, loss는 Cross Entropy
legal language는 unusual vocabulary(rare words, latin words etc), semantic(casual meaning과 legal meaning이 다름), syntactic feature 등에서 casual language와는 다름
그래서 본 연구진은 legal domain text에 대해 pretraining 더 진행함(?)
extractive summarization using TextRank, word limit은 180 words로 해서 wordpiece tokenizer 적용해도 512 tokens 넘지 않도록 하였음
COLIEE2019 dataset 사용
case law == common law인데 좀 다르게 쓰인듯?
case를 summarize해서 (query text, candidate text, relevance judgement)의 triplet으로 만들고, BERT finetuning(binary classification) 진행, relevance judgement가 relevance label 되겠음(namely FineTuned)
또한, in-domain pre-training하고, 여기에 fine-tuning도 진행(namely PreTrained). entire corpus of court decisions(18,000 documents, 45mln tokens)를 pre-training으로 사용
BM25 2개: 하나는 full text로 pairwise 비교, 하나는 summary로 pairwise 비교
생략. COLIEE2018 task 2 SoTA model(UB3)보다 FineTuned가 나았음