매뉴얼은 명확하고 정확한 정보 제공이 필수적이다. 특히 로봇 및 자동화 시스템을 제조하는 기술 집약적인 산업의 경우, 작성된 기술 문서인 매뉴얼의 언어적 오류나 번역 문제로 인한 잘못된 사용이 큰 문제를 초래할 수 있다. AI 언어모델은 이러한 문제를 해결할 수 있는 가능성을 제공한다.

AI-Hub의 자연어 분석 후처리용 교정 검증 데이터로부터, 잘못된 문장과 수정된 올바른 문장 쌍 및 오류 유형을 수집했다. 총 7개의 오류 유형별로 각각 4000개의 문장을 사용했다.
형식은 'instruction' : "해당 철자 오류를 가진 문장을 수정해주세요.", 'input' : 오타가 있는 문장, 'output' : 오타가 수정된 올바른 문장. 이 구조는 모델이 철자 오류를 효과적으로 교정할 수 있도록 도와준다.
테스트 데이터는 기업으로부터 제공받은 매뉴얼로부터, 원본 매뉴얼에서 선택된 문장에 오타를 추가하여 구성하였고, 오류 유형은 다음과 같다. (띄어쓰기 오류, 문장부호 오류, 수사 오류, 삭제 오류, 추가 오류, 교체 오류, 분리 오류, 타이핑 언어 오류, 외래어 변환 오류)
LLaMA3 Open-Ko 8B 모델을 사용하였다. 상대적으로 적은 컴퓨팅 파워로 구동 가능하고, 성능이 뛰어난 경량화 언어 모델이다. 해당 모델과 함께 GPT-4 아키텍처 기반 대규모 언어모델인 ChatGPT 또한 비교 평가하였다.
평가 기준은
잘못된 문장을 고친 후, 고쳐진 문장과 올바른 문장을 비교하여 네 명의 연구원이 각 기준에 따라 1점에서 5점까지 점수를 부여하여 독립적으로 평가를 수행했다.
| Model | Fluency Average | Accuracy Average | Relevance Average | Total Average |
|---|---|---|---|---|
| LLaMA3 Before Fine-tuning | 1.90 | 1.91 | 1.93 | 1.91 |
| LLaMA3 After Fine-tuning | 3.54 | 3.73 | 3.73 | 3.66 |
| ChatGPT | 4.86 | 4.70 | 4.95 | 4.84 |
| Error Type | LLaMA3 Before Fine-tuning | LLaMA3 After Fine-tuning | ChatGPT |
|---|---|---|---|
| 1 | 1.99 | 3.52 | 4.84 |
| 2 | 1.95 | 3.74 | 4.80 |
| 3 | 1.88 | 3.10 | 4.77 |
| 4 | 2.38 | 3.85 | 4.73 |
| 5 | 2.04 | 3.88 | 4.90 |
| 6 | 2.02 | 3.56 | 4.89 |
| 7 | 2.30 | 3.87 | 4.92 |
| 8 | 1.05 | 3.25 | 4.78 |
| 9 | 1.02 | 4.10 | 4.81 |
| Model | Fluency Standard Deviation | Accuracy Standard Deviation | Relevance Standard Deviation |
|---|---|---|---|
| LLaMA3 Before Fine-tuning | 1.07 | 1.28 | 1.25 |
| LLaMA3 After Fine-tuning | 0.79 | 0.94 | 0.79 |
| ChatGPT | 0.34 | 0.46 | 0.22 |
파인튜닝 전 모델은 전반적으로 낮은 성능과 일관성 부족을 보이며, 파인튜닝 후 모델은 모든 평가 항목에서 성능이 향상되고 일관성이 크게 개선되었다. 이는 파인튜닝이 모델 성능 향상에 중요한 역할을 한다는 것을 입증한다. ChatGPT는 매우 일관되고 안정적인 성능을 보인다.
AI 언어 모델을 활용하여 매뉴얼의 정확성과 명확성을 높이고, 사용자의 이해도를 향상시키며, 문서 작성 프로세스를 개선하는 데 기여할 수 있음을 보여준다.
매뉴얼 데이터와 같은 특정 도메인 데이터셋을 이용한 언어 모델 파인튜닝의 가능성과 유용성을 입증하였으며, 매뉴얼 작성 및 유지보수 작업에서의 자동화 가능성을 시사한다.
향후 더 다양한 유형의 오타와 광범위한 텍스트 데이터를 활용하여 모델의 성능을 검증하거나, 모델이 텍스트의 문맥을 이해하고 연속적인 정보를 처리하는 능력을 평가해볼 수 있을 것이다.
본 연구에 데이터를 제공해주신 ㈜로보스타에 감사드립니다.