Manual correction method using AI language model

우종헌·2024년 7월 11일

Language models

목록 보기
1/1

매뉴얼은 명확하고 정확한 정보 제공이 필수적이다. 특히 로봇 및 자동화 시스템을 제조하는 기술 집약적인 산업의 경우, 작성된 기술 문서인 매뉴얼의 언어적 오류나 번역 문제로 인한 잘못된 사용이 큰 문제를 초래할 수 있다. AI 언어모델은 이러한 문제를 해결할 수 있는 가능성을 제공한다.

데이터 수집

AI-Hub의 자연어 분석 후처리용 교정 검증 데이터로부터, 잘못된 문장과 수정된 올바른 문장 쌍 및 오류 유형을 수집했다. 총 7개의 오류 유형별로 각각 4000개의 문장을 사용했다.

형식은 'instruction' : "해당 철자 오류를 가진 문장을 수정해주세요.", 'input' : 오타가 있는 문장, 'output' : 오타가 수정된 올바른 문장. 이 구조는 모델이 철자 오류를 효과적으로 교정할 수 있도록 도와준다.

테스트 데이터는 기업으로부터 제공받은 매뉴얼로부터, 원본 매뉴얼에서 선택된 문장에 오타를 추가하여 구성하였고, 오류 유형은 다음과 같다. (띄어쓰기 오류, 문장부호 오류, 수사 오류, 삭제 오류, 추가 오류, 교체 오류, 분리 오류, 타이핑 언어 오류, 외래어 변환 오류)

모델

LLaMA3 Open-Ko 8B 모델을 사용하였다. 상대적으로 적은 컴퓨팅 파워로 구동 가능하고, 성능이 뛰어난 경량화 언어 모델이다. 해당 모델과 함께 GPT-4 아키텍처 기반 대규모 언어모델인 ChatGPT 또한 비교 평가하였다.

평가

평가 기준은

  • 유창성(Fluency): 문장이 문법적으로 올바르고 자연스럽게 읽히는 정도.
  • 정확성(Accuracy): 문장이 전달하는 정보가 사실을 정확히 전달하는지.
  • 적절성(Relevance): 텍스트가 주어진 질문이나 주제에 잘 부합하는지.

잘못된 문장을 고친 후, 고쳐진 문장과 올바른 문장을 비교하여 네 명의 연구원이 각 기준에 따라 1점에서 5점까지 점수를 부여하여 독립적으로 평가를 수행했다.

평가 결과

Average Performance Comparison Based on Evaluation Metrics

ModelFluency AverageAccuracy AverageRelevance AverageTotal Average
LLaMA3 Before Fine-tuning1.901.911.931.91
LLaMA3 After Fine-tuning3.543.733.733.66
ChatGPT4.864.704.954.84

Average Performance Comparison Based on Error Type

Error TypeLLaMA3 Before Fine-tuningLLaMA3 After Fine-tuningChatGPT
11.993.524.84
21.953.744.80
31.883.104.77
42.383.854.73
52.043.884.90
62.023.564.89
72.303.874.92
81.053.254.78
91.024.104.81

Standard Deviation of Evaluation Metrics for Models

ModelFluency Standard DeviationAccuracy Standard DeviationRelevance Standard Deviation
LLaMA3 Before Fine-tuning1.071.281.25
LLaMA3 After Fine-tuning0.790.940.79
ChatGPT0.340.460.22

파인튜닝 전 모델은 전반적으로 낮은 성능과 일관성 부족을 보이며, 파인튜닝 후 모델은 모든 평가 항목에서 성능이 향상되고 일관성이 크게 개선되었다. 이는 파인튜닝이 모델 성능 향상에 중요한 역할을 한다는 것을 입증한다. ChatGPT는 매우 일관되고 안정적인 성능을 보인다.

결론

AI 언어 모델을 활용하여 매뉴얼의 정확성과 명확성을 높이고, 사용자의 이해도를 향상시키며, 문서 작성 프로세스를 개선하는 데 기여할 수 있음을 보여준다.

매뉴얼 데이터와 같은 특정 도메인 데이터셋을 이용한 언어 모델 파인튜닝의 가능성과 유용성을 입증하였으며, 매뉴얼 작성 및 유지보수 작업에서의 자동화 가능성을 시사한다.

향후 더 다양한 유형의 오타와 광범위한 텍스트 데이터를 활용하여 모델의 성능을 검증하거나, 모델이 텍스트의 문맥을 이해하고 연속적인 정보를 처리하는 능력을 평가해볼 수 있을 것이다.

감사의 글

본 연구에 데이터를 제공해주신 ㈜로보스타에 감사드립니다.

profile
KU ICTM

0개의 댓글