OUTFOX: LLM-generated Essay Detection through In-context Learning with Adversarially Generated Examples

ingeol·2023년 11월 2일
0

NLP

목록 보기
7/8

Abstract

ICL(in-context learning)을 이용해 detector와 attacker 둘 다 탐지하고 공격하기 어렵게 한 적대적 학습 형식이다.
detector와 attacker gpt 3.5 tubo 사용,,,

Introduction

OUTFOX 전체 구조
1. det 예측값 반환(train set)
2. att 1번에서 label pred값을 사용함 (+ ICL)
3. test set에서 att가 생성한 문장 detect 진행함

해당 전체 방식에서 det, att 모두 ICL과 적대적 학습을 진행하고 두 방식 모두를 사용했을 때 가장 효과적인 F1 스코어가 나왔다.

essay분야에서 학생들이 LM을 사용했는지 detection 하기 위해 데이터셋을 3개의 모델로부터 생성함.

1) Text Detection
- 워터마크 방식 : hash 값을 사람은 알아차리기 어렵게 토큰에 넣어줘서 구분할 수 있게 하는 방식
- Statistical outlier : 통계적 방식으로 white-box방식이 가능하며, n-gram, entropy, token log prob, neg curvature regions of the model's log prob(2023) 방식등이 존재한다.
- Supervised learning : unseen data에 약하다.
- 적대적 방식
2) Attacking LLM-Generated Text Detection
- paraphrasing(DIPPER, 2023)모델이 최근에 나옴, 11B이며 컨텍스트나 단어를 re-ordering 하는 방식으로 detection이 힘들어짐
3) Defense Against Attacking LLM-Generated Text Detection
- 검색기반의 방법론(2023)나옴 - 의미론적 유사성을 바탕으로 API를 사용한다는 단점 + 최근에 검색기반방법은 paraphrasing(DIPPER)에 취약함(성능 -25%)

OUTFOX Framework

2) The OUTFOX Detector

  • target essay e와 target problem statement p 의 세트로 주어지게 된다.
  • training set으로부터 p와 의미론적으로 비슷한 top-k problem statements 를 검색한다(사람이 쓴것과 연관된 LLM생성문장 함께 p 로 retrieved된다).
  • attack을 생성하기위해 랜덤으로 j 선택
  • 결과적으로 OUTFOX attacker는 적대적으로 생성한다. 그 결과
  • k: 사람이 쓴 글, j: attacked 글, k-j: LLM이 생성한 글 의 수가 된다.
  • Rdet=(ei,li)i=12kR_{det} = {(e_{i}, l_{i})}^{2k}_{i=1} 식에서는 eie_{i} 는 문장들이 될꺼고 lil_{i} 는 label이된다.
  • l^=argmaxlHUMAN,LMP(lI,Rdet,e)\hat{l} = argmax_{l \in {HUMAN,LM}} P(l|I,R_{det},e) 해당식에서 I 는 instruct 문장이되고 R은 ICL을 위한 문장과 label, e는 예측하기위한 타겟 문장이 된다.

  • Detector workflow : problem statement p(과제 지문), target essay e(과제 작성된 부분), instruct I, 예측 값: l^\hat{l}
    1. attacker는 p와 비슷한 문장(TF-IDF방식 이용)을 trainset에서 가져온다. 10개로 가져온 문장에서 랜덤으로 선택한 후 생성 (Human written k = 5, if j = 3, -> 3 : attacker가 생성한 문장, 2 : LLM generated 했던 문장)
    2. I(instruct) 넣어준 후 RdetR_{det} (10개) 넣고 target essay e 넣어준 후 답변생성하게함

  • Attacker workflow : attacker는 새로운 문장을 생성한다. problem statement p 에 대해서 retrieve top-k 개 유사한 pip_{i} 를 뽑아내고, 그것들을 바탕으로 detector가 예측한 문장들을 바탕에 p와 cosine similarity가 큰 문장을 생성하게 한다.

0개의 댓글