랭체인(🦜️🔗LangChain)과 함께 데이터셋 자동 라벨러 만들기

Jiwon Kang·2023년 6월 26일

Generation LLM NLP 튜토리얼 프롬프트 엔지니어링

LLM & 프롬프트 엔지니어링

목록 보기

9/11

목표: 자동 라벨러 만들기

목표는 LLM을 활용해 자동 라벨링 테스크를 수행하기
- 텍스트가 주어지면 프롬프트 내의 가이드라인을 보고 라벨링하는 것이 목표!
- 이렇게 라벨링해서 다운스트림 테스크에 사용해도 좋겠지만, 우선은 또 하나의 라벨러 역할을 수행하도록 하는게 목적
필요한 재료
- 라벨링할 Raw 텍스트
- 라벨링 가이드라인 (선택, 프롬프트 세부 작성시 사용)
- 라벨링할 카테고리 종류
- N명의 라벨러가 라벨링한 데이터 (선택, 평가시 사용)
사용 데이터
- 스마일게이트에서 만든 한국어 혐오표현 데이터를 사용했다
👾 Jupyter Notebook (Code)
- 포스트에서 사용한 노트북 파일

🦜️🔗LangChain

이번에는 OpenAI API를 사용하지 않고 랭체인이라는 패키지를 사용한다
랭체인이라는 패키지는 OpenAI API를 비롯한 LLM을 활용하기 편하게 만드는 프레임워크다. huggingface랑 비슷한 역할을 한다고 보면 쉽다
랭체인에는 여러가지 기능들이 있는데 우리가 이번에 쓸건 아래와 같다
- 프롬프트 템플릿 기능: 간편하게 입력 프롬프트와 출력값을 정제할 수 있다
- 텍스트 임베딩 + 예제 선택 + 벡터 데이터베이스 연동 기능: 프롬프트 작성시 예제를 함께 주입하면 좋은 결과를 얻을 수 있는데, 예제를 선택할 때 라벨링 대상 텍스트와 비슷한 예제를 선택할 수 있게 해준다

1. 프롬프트 작성하기

먼저 지시문과 어떻게 지시문의 테스크를 해결할지에 대한 가이드라인을 적어주자

label_template = """아래의 라벨링 가이드라인에 따라 단계적으로 주어진 텍스트에 대한 혐오표현을 분류하세요.

1. 혐오 표현의 정의: 특정 사회적 (소수자) 집단에 대한 적대적 발언, 조롱, 희화화, 편견을 재생산하는 표현으로, 
대상에 대한 고정관념,대상의 특성이나 성향을 특정한 통념에 고착시키는 발언을 포함. 단, 화자 스스로를 자조적으로 표현하는 경우는 혐오 발언이 아님
   
2. 라벨링 단계:
   - Step 1: 주어진 text를 혐오표현, 악플/욕설, clean 중 하나로 분류
       - Clean: 혐오표현, 욕설, 불쾌감, 음란성 내용을 포함하고 있지 않은 일반 문장
       - 악플/욕설: 어떤 집단을 향한 혐오 표현인지 지칭할 수는 없지만, 타인 혹은 외모에 대한 비하/욕설이 포함되어 있거나, 불쾌감을 주거나, 악플과 음란성 문장
       - 혐오표현: Step2로 이동
   - Step 2: 혐오표현일 경우 혐오 카테고리 중에서 해당되는 카테고리를 multi-label로 분류
       - 여성/가족: 여성성 및 여성의 성역할에 대한 통념을 고착시키는 발언, 여성 차별을 희화화하는 발언, 페미니즘·여성가족부 전반에 대한 악플, 간호사, 여경 등 여성을 중심으로 구성된 집단, 비혼주의자, 미혼모, 동성 부부 등 전통적이지 않은 형식의 가족에 대한 혐오 발언
       - 남성: 집단으로서의 남성 일반을 비하, 조롱, 희화화하는 발언
       - 성소수자: 성소수자(레즈비언, 게이, 바이섹슈얼, 트랜스젠더 등)를 배척하는 발언이나 이성애 이외의 섹슈얼리티를 부정적으로 묘사하거나 성소수자를 희화화하는 표현
       - 인종/국적: 특정 인종과 국적에 대한 욕설, 고정관념, 조롱. 종교·인종·국가에 대해 암묵적으로 함께 지칭하는 소재의 발언
       - 연령:특정 세대나 연령을 비하하는 은어의 사용 및 혐오 표현
       - 지역: 특정 지역에 대한 은어 및 혐오 표현을 분류
       - 종교: 특정 종교에 대한 혐오 및 종교인 집단에 대한 비난
       - 기타혐오: 위에서 정의한 카테고리 이외의 집단을 대상으로 하는 혐오 표현
"""

데이터셋 README.md에 가이드라인이 제법 잘 나와있는 편이라 거의 그대로 가져왔다

2. 프롬프트 포맷팅

앞서 작성한 프롬프트를 그대로 넣지 않고 예제와 입력값, 입력값 형태를 요청하는 프롬프트를 추가해서 넣을거다

fewshot_template = """
{label_template}

For example:
text: "꼭 키 작은 급식충이 이런 글 씀"
label: "연령"

Input:
text: "{text}"

{format_instructions}
"""

label_template: 지시문 + 라벨링 가이드라인 조합의 글
text: 라벨링할 타겟 텍스트
format_instructions: 모델의 아웃풋이 들어갈 곳으로, 랭체인의 StructuredOutputParser 기능을 사용하면 결과에 대한 후처리가 쉽도록 JSON 형태로 만들어주는 프롬프트를 자동으로 주입해준다. 아래처럼 사용하면된다

label_schema = ResponseSchema(
    name="label",
    description=""
)

response_schemas = [label_schema]
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)
format_instructions = output_parser.get_format_instructions()

❗️포맷팅 후 최종 프롬프트 예시

아래의 라벨링 가이드라인에 따라 단계적으로 주어진 텍스트에 대한 혐오표현을 분류하세요.

혐오 표현의 정의: 특정 사회적 (소수자) 집단에 대한 적대적 발언, 조롱, 희화화, 편견을 재생산하는 표현으로,
대상에 대한 고정관념,대상의 특성이나 성향을 특정한 통념에 고착시키는 발언을 포함. 단, 화자 스스로를 자조적으로 표현하는 경우는 혐오 발언이 아님
라벨링 단계:
- Step 1: 주어진 text를 혐오표현, 악플/욕설, clean 중 하나로 분류
  - Clean: 혐오표현, 욕설, 불쾌감, 음란성 내용을 포함하고 있지 않은 일반 문장
  - 악플/욕설: 어떤 집단을 향한 혐오 표현인지 지칭할 수는 없지만, 타인 혹은 외모에 대한 비하/욕설이 포함되어 있거나, 불쾌감을 주거나, 악플과 음란성 문장
  - 혐오표현: Step2로 이동
- Step 2: 혐오표현일 경우 혐오 카테고리 중에서 해당되는 카테고리를 multi-label로 분류
  - 여성/가족: 여성성 및 여성의 성역할에 대한 통념을 고착시키는 발언, 여성 차별을 희화화하는 발언, 페미니즘·여성가족부 전반에 대한 악플, 간호사, 여경 등 여성을 중심으로 구성된 집단, 비혼주의자, 미혼모, 동성 부부 등 전통적이지 않은 형식의 가족에 대한 혐오 발언
  - 남성: 집단으로서의 남성 일반을 비하, 조롱, 희화화하는 발언
  - 성소수자: 성소수자(레즈비언, 게이, 바이섹슈얼, 트랜스젠더 등)를 배척하는 발언이나 이성애 이외의 섹슈얼리티를 부정적으로 묘사하거나 성소수자를 희화화하는 표현
  - 인종/국적: 특정 인종과 국적에 대한 욕설, 고정관념, 조롱. 종교·인종·국가에 대해 암묵적으로 함께 지칭하는 소재의 발언
  - 연령:특정 세대나 연령을 비하하는 은어의 사용 및 혐오 표현
  - 지역: 특정 지역에 대한 은어 및 혐오 표현을 분류
  - 종교: 특정 종교에 대한 혐오 및 종교인 집단에 대한 비난
  - 기타혐오: 위에서 정의한 카테고리 이외의 집단을 대상으로 하는 혐오 표현

For example:
text: "꼭 키 작은 급식충이 이런 글 씀"
label: "연령"

Input:
text: "남자끼리 온갖어문짓하는 레즈비언님들 진짜 괴롭지.."

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "json" and "":

{
	"label": string  // 
}

3. 모델 실행

이제 프롬프트를 모델에 넣어주자

chat = ChatOpenAI(temperature=0.0)

def autolabel_with_fewshot(input_text):
    messages = prompt_template.format_messages(
        label_template=label_template,
        text = input_text, # input text
        format_instructions = format_instructions
        )
    
    
    response = chat(messages)
    return output_parser.parse(response.content)
    
exp1_result = []

for input_text in tqdm(test_df['문장'].values):
    exp1_result.append(autolabel_with_fewshot(input_text))

요금이 부과라서 두려웠지만 (슬픈 지난날의 추억이..) GPT3.5-turbo 기준 Input 토큰 가격은 1K당 $0.0015이므로 하루종일 이것저것 가지고 놀아도 그리 큰 금액이 나오지 않았다. 걱정되는 사람은 Notebook에 함께 넣어둔 예상금액 함수를 써보자

결과

우선은 테스트셋의 5%(122개)만을 사용해서 프롬프트 테스트를 진행했다

exp1

참고로 데이터셋 벤치마크 성능은 이렇다

                precision    recall  f1-score   support

     여성/가족       0.85      0.70      0.76       394
         남성       0.87      0.83      0.85       334
      성소수자       0.90      0.78      0.83       280
     인종/국적       0.87      0.79      0.82       426
         연령       0.92      0.75      0.83       146
         지역       0.87      0.88      0.88       260
         종교       0.87      0.86      0.87       290
      기타혐오       0.92      0.18      0.30       134
     악플/욕설       0.76      0.59      0.67       786
       clean       0.74      0.79      0.77       935

   micro avg       0.82      0.73      0.77      3985
   macro avg       0.86      0.72      0.76      3985
weighted avg       0.82      0.73      0.77      3985
 samples avg       0.76      0.74      0.75      3985

샘플 수 차이가 꽤 나지만 성능차이가 크게 난다. 예를 들어 남성 카테고리는 맞추기 쉬운 건데도 처참한 성능을 보인다. 여기서 사이즈업하기 전에 프롬프트를 개선해보자

4. 프롬프트 개선: 임베딩 사용하기

방금까지 사용하던 프롬프트는 프롬프트에 예제를 넣어주긴 했지만 라벨링해야하는 데이터와 관계없이 항상 동일한 예제였다. 그런데 이 때! 입력값에 따라 예제가 변경되면 어떨까?
이런 기능을 수행하는 것이 Example Selector라는 랭체인의 기능이다
Example Selector를 위해서는 텍스트를 임베딩으로 변환, 여러개의 임베딩 중에서 유사한 임베딩을 찾아내는 기능, 그렇게 찾아낸 임베딩에 대응하는 예제를 프롬프트에 주입하는 기능을 하나하나 구현해야하는데 그럴 필요가 없는 아주 편리한 기능이다
기존의 프롬프트를 변경해보자!

임베딩 불러오기

임베딩은 PLM이나 LLM 중 아무거나 사용해도된다. OpenAI에서도 물론 지원해주는데, 반드시 성능을 보장하는 건 아니었다. 우선은 데이터셋 벤치마크에서 사용했던 BERT 사전학습 모델을 통해 임베딩 모델을 정의하자

from langchain.embeddings import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(
    model_name = 'smilegate-ai/kor_unsmile'# 'sentence-transformers/all-mpnet-base-v2'
)

현재 프롬프트 실험은 테스트셋에서 하고 있기 때문에 사전학습 모델을 사용한다고 하더라도 unseen data라는 점을 참고해두자

입력 프롬프트 변경

지난번과 달리 입력 프롬프트 부분을 example_selector로 교체했다

# input formater

fewshot_template = """
{label_template}

{example_selector}

{format_instructions}
"""

prompt_template = ChatPromptTemplate.from_template(fewshot_template)

임베딩을 통해 찾아낸 유사한 예제를 담아둘 프롬프트 템플릿을 정의해야한다

from langchain.prompts.example_selector import MaxMarginalRelevanceExampleSelector
from langchain.vectorstores import FAISS # 빠르게 유사한 임베딩을 찾아주는 알고리즘
from langchain.prompts import FewShotPromptTemplate, PromptTemplate
example_prompt = PromptTemplate(
    input_variables=["text", "label"],
    template='text: "{text}"\nlabel: "{label}"',
)

examples = [{'text': text, 'label': label} for text, label in zip(train_df['문장'].values, train_df['label'].values)]

그 다음엔 MaxMarginalRelevanceExampleSelector라는 방식으로 어떻게 유사한 예제를 찾을 건지 정의할 거다. 유사한 예제를 찾는 방식은 가장 비슷한거 찾는게 가장 간단한 방법일텐데 이러면 예제의 다양성이 감소될 수 있다, 그래서 어느정도 유사한 N개의 예제를 찾은 다음에 그중에서 랜덤하게 예제를 선택하는 방식이다

example_selector = MaxMarginalRelevanceExampleSelector.from_examples(
    examples,
    embeddings,
    FAISS,
    k=2, # 몇개의 예제를 넣을건지 정해준다
)

mmr_prompt = FewShotPromptTemplate(
    example_selector=example_selector,
    example_prompt=example_prompt,
    prefix='For example:',
    suffix='Input:\ntext:"{text}"',
    input_variables=["text"],
)

모델 실행

비슷한 모델 실행함수를 만들어 다시 실험을 해보자

def autolabel_with_embed(input_text):
    messages = prompt_template.format_messages(
        label_template=label_template,
        example_selector=mmr_prompt.format(text=input_text),
        format_instructions = format_instructions
    )
    
    response = chat(messages)
    return output_parser.parse(response.content) # {'label': 'Academic'}
    

exp2_result = []

for input_text in tqdm(test_df['문장'].values[len(exp2_result):]):
    exp2_result.append(autolabel_with_embed(input_text))

결과

exp2

전반적으로 개선됐다! 파인튜닝 모델 성능에 비해선 낮지만 (Macro F1=0.76) 고정된 퓨샷 예제를 쓸 때 보다는 (Macro F1=0.42) 훨씬 나아졌다

후기

프롬프트 엔지니어링이랑 LLM 배우면서 더더욱 실용적인 시나리오를 생각해보는게 훨씬 더 도움이 될 거같아서 생각한 프로젝트
마지막 결과를 보곤 퓨샷 방식 사용할 때는 기본으로 임베딩 모델을 고려하는게 좋을 거 같다고 생각했다. 물론 긍/부정과 같은 간단한 테스크라면 상관없지만 혐오표현처럼 사람도 어려운 테스크라면 더더욱
오늘 만든 오토 라벨러의 목적이 한사람을 대체하는 건데 API 요금은 대략 (1만8천개의 데이터에 대해 50달러 정도 나올 거 같다) 그런데 여기에서 라벨러를 고용하는 것 vs. 개발자가 프롬프트 엔지니어링 하면서 오토 라벨러 만들기 중에서 뭐가 더 좋을지 고민해봐야할 거 같다
테스크가 간단한 경우 거나 새로운 라벨에 대한 데이터를 만들어야할 필요가 있을 때(이건 안해봤음)도 사용할 수 있을 거 같은데, 오늘 사용했던 데이터처럼 다소 성능을 올려야할 여지가 있는 경우엔 그냥 사람을 더 고용하는게 나을 수도 있지않을까라는 생각이 들었다
게다가 복잡한 테스크라면 역시 사람 전문가가 합류해서 초기에 경험적으로 가이드라인 구축 & 정제 작업을 해줘야하는데, 언제 이런 오토라벨러를 쓰면 좋을지 고민해볼 필요가 있겠다