Legal Judgment Prediction via Event Extraction with Constraint

상솜공방·2025년 4월 25일

논문 리뷰

목록 보기
2/49

데이터셋

Input data: 범죄 사실
Output data: 법 조항(tat_a), 죄명(tbt_b), 형량(tct_c) (ta,tc,tpTt_a, t_c, t_p \in T)

베이스라인 모델

Token representation layer

h1,h2,...hlf=Legal-BERT(x1,x2,...xlf)h_1, h_2, ... h_{l_f} = \text{Legal-BERT}(x_1, x_2, ...x_{l_f})
  • D={x1,x2,...xlf}D = \{x_1, x_2, ...x_{l_f}\}: 범죄 사실을 토큰화 한 집합
  • Hf={h1,h2,...hlf}H_f = \{h_1, h_2, ...h_{l_f}\}: 피처 벡터

Generating context features

hˉ=maxpooling(h1,h2,...hlf)\bar{h} = \text{maxpooling}(h_1, h_2, ...h_{l_f})

맥스풀링 레이어를 거쳐 context representation을 만든다.

Incorporating law article semantics

이렇게 생성된 문맥 표현 hˉ\bar{h}와 관련된 법조항 사이의 연관관계를 학습시켜야 한다.
따라서 법조항을 위와 동일한 방식으로 Legal-BERT에 통과시킨 뒤 맥스풀링을 하여 context representation으로 만든다.

h1,h2,...hla=Legal-BERT(x1,x2,...xla)h_1, h_2, ... h_{l_a} = \text{Legal-BERT}(x_1, x_2, ...x_{l_a})
  • 법조항을 토큰화 한 집합 Da={x1,x2,...xla}D_a = \{x_1, x_2, ...x_{l_a}\}
  • 피처 벡터 Ha={h1,h2,...hla}H_a = \{h_1, h_2, ...h_{l_a}\}
    c=maxpooling(h1,h2,...hla)c = \text{maxpooling}(h_1, h_2, ...h_{l_a})

이후 범죄 사실 진술과 법조항 사이의 연관관계를 학습시키기 위해, 아래와 같은 과정을 진행한다.

αj=hˉTWccj\alpha_j = \bar{h}^T W_c c_j
  • cjc_j: jj번째 cc
  • WcW_c: 학습 가능한 파라미터

이렇게 얻어진 αj\alpha_jhˉ\bar{h}cjc_j 간의 연관관계에 대한 가중치이다.

cˉ=exp(αj)k=1exp(αk)cj\bar{c} = \sum \frac{exp(\alpha_j)}{\sum_{k=1} exp(\alpha_k)} c_j

해당 범죄 사실에 대한 모든 법조항 사이의 연관관계를 구하여 가중치화한다.
이후 이들을 혼합하여, 해당 범죄 사실과 관련된 법조항의 정보를 통합한다.

yt^=softmax(Wt[hˉ;cˉ]+bt)\hat{y_t} = \text{softmax}(W_t[\bar{h}; \bar{c}] + b_t)
  • hˉ\bar{h}: 범죄 사실로부터 생성된 context representation
  • cˉ\bar{c}: 관련된 법조항의 정보가 혼합된 context representation
  • Wt,btW_t, b_t: 학습 가능한 파라미터
  • yt^\hat{y_t}: 예측 결과
profile
상어 인형을 좋아하는 사람

0개의 댓글