LLaMA3를 이용한 문장 요약 실습 (HuggingFace 🤗)

Judy·2024년 5월 15일
0

OpenLLM스터디

목록 보기
3/10

Code

리소스

Google Colab Pro+
T4 GPU + 고용량 RAM

라이브러리 설치

!pip install accelerate

HuggingFace Token 설정

import os
os.environ['HF_TOKEN']="hf_huggingface token"

토크나이저 및 모델 설정

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 모델은 다음 3개를 비교하였습니다
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
# model_id = "beomi/Llama-3-Open-Ko-8B-Instruct-preview"
# model_id = "beomi/Llama-3-KoEn-8B-Instruct-preview"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
	model_id,
	# 강의자료에서는 bfloat16을 이용하였으나
	# 저는 auto 이용했습니다.
    # torch_dtype=torch.bfloat16,
    torch_dtype="auto",
    device_map="auto",
)

템플릿 설정 및 모델 변수 설정

def generate_response(system_message, user_message):
    messages = [
        {"role": "system", "content": system_message},
        {"role": "user", "content": user_message},
    ]

    input_ids = tokenizer.apply_chat_template(
        messages,
        add_generation_prompt=True,
        return_tensors="pt"
    ).to(model.device)

    terminators = [
        tokenizer.eos_token_id,
        tokenizer.convert_tokens_to_ids("<|eot_id|>")
    ]

    outputs = model.generate(
        input_ids,
        max_new_tokens=512,
        eos_token_id=terminators,
        do_sample=True,
        # beomi 모델의 경우 temperature 를 1로 줌 (더 다양한 답변 생성)
        # temperature=1,
        temperature=0.6,
        top_p=0.9
        
    )

    response = outputs[0][input_ids.shape[-1]:]

    return tokenizer.decode(response, skip_special_tokens=True)

현재 하드웨어 체크

# GPU가 잘 잡히면 'cuda:0' 출력
print(model.device)

텍스트 요약

요약할 원본 텍스트

배경: 현재 대변검경검사에서는 적절한 정도관리물질이 없어 질관리가 미진한 실정이다. 본 연구의 목적은 설사변에서 발견되는 장내 기생충 현황을 알아보고, 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하고자 하였다. 방법: 본 연구는 대변배양이 의뢰된 검체 중 82건의 설사변을 대상으로 하였다. 현미경적 진단법은 직접도말법과 포르말린-에테르침전법으로 시행하였다. 작은와포자충, 람블편모충, 이질아메바에대해서는 ELISA 키트 (R-Biopharm) 및 xTAG® Gastrointestinal Pathogen Panel (Luminex Corporation) 을 이용하여 검사하였다. 이핵아메바와 블라스토시스티스 호미니스에 대해서는 특이 유전자를 타깃으로 하는 PCR을 수행하였다. 정도관리물질은 음성 대변 검체와 동해긴촌충의 충란을 섞어 제조하였다. 제조된 정도관리물질은 보존제 종류, 보관 온도, 보관 기간에 따라 안정성을 평가하였다. 결과: 총 82건의 설사변에서 현미경법으로는 유의한 기생충을 발견할 수 없었다. 작은와포자충, 람블편모충, 이질아메바에 대한 ELISA 결과, 82건 모두 음성이었다. xTAG® Gastrointestinal Pathogen Panel을 이용한 결과, 작은와포자충 2건과 람블편모충 1건의양성 소견을 보였다. 이핵아메바와 블라스토시스티스 호미니스 유전체에 대한 PCR 검사 결과, 이핵아메바 양성 10건, 블라스토시스티스 호미니스 양성 2건이 관찰되었다. 본 연구에서 제조한 고농도정도관리물질은 3개월 보관 시까지 2가지 보존제 및 보관 온도와무관하게 충란이 관찰되었다. 저농도 정도관리물질의 경우, 14일보관 시까지는 2가지 보존제 및 보관 온도와 무관하게 충란이 관찰되었지만, 3주 이후에는 관찰되지 않았다. 결론: 대변 검경용 정도관리물질의 제조에 있어서 국내 설사환자에서 주로 발견되는 이핵아메바와 블라스토시스티스 호미니스가 포함되는 것이 필요하고, 저농도 물질의 경우 안정성이 떨어질 수있음을 감안하여야 할 것이다.

orginal_text = '배경: 현재 대변검경검사에서는 적절한 정도관리물질이 없어 질관리가 미진한 실정이다. 본 연구의 목적은 설사변에서 발견되는 장내 기생충 현황을 알아보고, 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하고자 하였다. 방법: 본 연구는 대변배양이 의뢰된 검체 중 82건의 설사변을 대상으로 하였다. 현미경적 진단법은 직접도말법과 포르말린-에테르침전법으로 시행하였다. 작은와포자충, 람블편모충, 이질아메바에대해서는 ELISA 키트 (R-Biopharm) 및 xTAG® Gastrointestinal Pathogen Panel (Luminex Corporation) 을 이용하여 검사하였다. 이핵아메바와 블라스토시스티스 호미니스에 대해서는 특이 유전자를 타깃으로 하는 PCR을 수행하였다. 정도관리물질은 음성 대변 검체와 동해긴촌충의 충란을 섞어 제조하였다. 제조된 정도관리물질은 보존제 종류, 보관 온도, 보관 기간에 따라 안정성을 평가하였다. 결과: 총 82건의 설사변에서 현미경법으로는 유의한 기생충을 발견할 수 없었다. 작은와포자충, 람블편모충, 이질아메바에 대한 ELISA 결과, 82건 모두 음성이었다. xTAG® Gastrointestinal Pathogen Panel을 이용한 결과, 작은와포자충 2건과 람블편모충 1건의양성 소견을 보였다. 이핵아메바와 블라스토시스티스 호미니스 유전체에 대한 PCR 검사 결과, 이핵아메바 양성 10건, 블라스토시스티스 호미니스 양성 2건이 관찰되었다. 본 연구에서 제조한 고농도정도관리물질은 3개월 보관 시까지 2가지 보존제 및 보관 온도와무관하게 충란이 관찰되었다. 저농도 정도관리물질의 경우, 14일보관 시까지는 2가지 보존제 및 보관 온도와 무관하게 충란이 관찰되었지만, 3주 이후에는 관찰되지 않았다. 결론: 대변 검경용 정도관리물질의 제조에 있어서 국내 설사환자에서 주로 발견되는 이핵아메바와 블라스토시스티스 호미니스가 포함되는 것이 필요하고, 저농도 물질의 경우 안정성이 떨어질 수있음을 감안하여야 할 것이다.'

# model output (summarization 결과)
llama3_summary_text = generate_response(system_message="너는 요약을 수행하는 챗봇이야. 핵심 내용만 512 토큰 이내로 한국어로 요약해줘",
                             user_message=orginal_text)
print(llama3_summary_text)

요약 결과 비교

meta-llama/Meta-Llama-3-8B-Instruct

256 토큰

한국어 요약 (256토큰 이내):

대변검경검사에서 적절한 정도관리물질이 없어질관리가 미진한 실정이다. 본 연구에서는 설사변에서 발견되는 장내 기생충 현황을 알아보고, 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하였다. 82건의 설사변을 대상으로 하여 현미경적 진단법, ELISA, xTAG, PCR 등을 사용하여 기생충을 검사하였다. 제조된 정도관리물질은 보존제 종류, 보관 온도, 보관 기간에 따라 안정성을 평가하였다. 결과, 이핵아메바와 블라스토시스티스 호미니스 유전체에 대한 PCR 검사에서 양성 소견을 보였으며, 제조된 정도관리물질은 3개월 보관 시까지 안정성을 보였다. 그러나 저농도 정도관리물질의 경우, 3주 이후에는 안정성이 떨어질 수 있음을 감안하여야 할 것이다.

beomi/Llama-3-Open-Ko-8B-Instruct-preview

256 토큰

이하의 내용은 대변검경검사에서 적절한 정도관리물질이 없어 질관리가 미진한 실정에서 주로 발견되는 장내 기생충 현황을 알아보고, 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하는 연구를 수행한 결과를 요약한 것이다. 연구에서는 82건의 설사변을 대상으로 하였으며, 현미경적 진단법과 ELISA 키트, PCR을 사용하여 검사하였다. 결과는 총 82건의 설사변에서 현미경법으로는 유의한 기생충을 발견할 수 없었다. ELISA 결과, xTAG® Gastrointestinal Pathogen Panel을 사용한 결과, 작은와포자충 2건, 람블편모충 1건의 양성 소견을 보였으며, PCR 검사 결과, 이핵아메바 10건, 블라스토시스티스 호미니스 2건이 관찰되었다. 제조한 고농도 정도관리물질은 3개월 보관 시까지 2가지 보존제 및 보관 온도와 무관하게

512 토큰

<첫번째 시도>
이하의 요약은 본 연구의 목적, 방법, 결과를 요약한 한국어로 작성한 것입니다. 대변 검경에 있어 적절한 정도관리물질의 제조를 위해 주로 발견되는 이핵아메바와 블라스토시스티스 호미니스를 포함하여야 하며, 저농도 물질의 경우 안정성이 떨어질 수 있음을 고려해야 한다는 결론을 내렸습니다.

<재시도>
이하의 요약은 512토큰 이내로 작성된 대변검경검사에 대한 연구결과입니다. 연구에서는 설사변에서 발견되는 장내 기생충 현황을 분석하고, 대변 검경에 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하는 것을 목표로 하였습니다. 82건의 설사변을 대상으로 하여 현미경적 진단법을 시행한 결과, 작은와포자충, 람블편모충, 이질아메바에 대한 ELISA 키트를 사용하여 검사하였고, 이핵아메바와 블라스토시스티스 호미니스에 대한 PCR을 수행하여 안정성을 평가했습니다. 결과는 총 82건의 설사변에서 현미경법으로는 유의한 기생충을 발견할 수 없었으며, xTAG® Gastrointestinal Pathogen Panel을 사용한 결과, 작은와포자충 2건과 람블편모충 1건의 양성 소견을 보였습니다. 제조한 고농도정도관리물질은 3개월 보관 시까지 2가지 보존제 및 보관 온도와 무관하게 충란이 관찰되었지만, 저농도 정도관리물질의 경우, 14일 보관 시까지는 2가지 보존제 및 보관 온도와 무관하게 충란이 관찰되었지만, 3주 이후에는 관찰되지 않았다. 이에 따라 대변 검경용 정도관리물질의 제조에 있어 이핵아메바와 블라스토시스티스 호미니스가 포함되는 것이 필요하고, 저농도 물질의 경우 안정성이 떨어질 수 있음을 고려해야 합니다.

beomi/Llama-3-KoEn-8B-Instruct-preview

256 토큰

대변검경검사에서 적절한 정도관리물질이 없어 질관리가 미진한 실정입니다. 이에 본 연구에서는 설사변에서 발견되는 장내 기생충 현황을 알아보고, 대변 검경에 있어 활용 가능한 정도관리물질을 제조하여 그 안정성을 검증하고자 하였습니다. 82건의 설사변을 대상으로 현미경적 진단법과 ELISA, PCR을 수행한 결과, 현미경적 진단법에서는 유의한 기생충이 발견되지 않았습니다. ELISA와 PCR을 통해 이질아메바, 람블편모충, 이핵아메바, 블라스토시스티스 호미니스에 대한 검사를 시행한 결과, 이질아메바는 음성, 람블편모충은 1건의 양성 소견이 관찰되었습니다. xTAG Gastrointestinal Pathogen Panel을 사용한 결과, 2건의 작은와포자충과 1건의 람블편모충이 양성 소견을 보였습니다. PCR 검사 결과, 이핵아메바 10건, 블

512 토큰

배경: 대변검경검사에서 적절한 정도관리물질이 없어 질관리가 미진한 실정. 본 연구는 설사변에서 장내 기생충 현황을 파악하고, 대변 검경에 활용 가능한 정도관리물질을 제조하여 안정성을 검증하고자 하였다.

방법: 82건의 설사변을 대상으로 현미경적 진단법(직접도말법, 포르말린-에테르침전법) 및 ELISA, xTAG, PCR을 수행하였다. 정도관리물질은 음성 대변 검체와 동해긴촌충의 충란을 섞어 제조하고, 보존제 종류, 보관 온도, 보관 기간에 따라 안정성을 평가하였다.

결과: 현미경법에서는 유의한 기생충이 발견되지 않았다. ELISA, xTAG, PCR 결과, 이핵아메바 10건, 블라스토시스티스 호미니스 2건의 양성 소견이 관찰되었다. 제조한 정도관리물질은 3개월 보관 시까지 충란이 관찰되었고, 저농도 물질의 경우 14일 보관 시까지는 충란이 관찰되었으나 3주 이후에는 관찰되지 않았다.

결론: 대변 검경용 정도관리물질의 제조에 있어서 국내 설사환자에서 주로 발견되는 이핵아메바와 블라스토시스티스 호미니스가 포함되는 것이 필요하고, 저농도 물질의 경우 안정성이 떨어질 수 있음을 감안하여야 할 것이다.

결론

  • 256토큰으로 요약할 경우 한국어 fine-tuning 모델은 완성도가 낮다 (맨 마지막 문장 미완성 등)
    • temperature 값을 바꿔가며 테스트해도 좋을 것 같다!

Reference

profile
NLP Researcher

0개의 댓글