# HyperCLOVA
"챗GPT보다 한국어 6500배 학습"했다는 네이버, 6500배는 어떻게 나온 계산일까요?
2023년 8월 24일에 네이버 하이퍼클로바X가 공개됩니다. 관련 기사를 찾아보면 네이버가 OpenAI보다 한국어를 6500배 더 많이 학습했다는 언급을 자주 접하게 됩니다. 그런데 6500배라는 수치는 어떻게 나온 것일까요? 오픈AI에서 챗GPT나 GPT4를 발표하면서 한국어를 얼만큼 학습했다고 얘기한 적이 없거든요. 네이버에서는 무슨 근거로 6500배라고 계산했을까요? 커뮤니티마다 이것을 궁금해하는 분들이 꽤 계셨습니다. 오픈AI에서 한국어 데이터 비율을 공개한 적이 한 번 있었습니다. 바로 GPT3를 발표했을 때인데요, 깃헙에 정확한 데이터 분량을 공개해 두었습니다. 아래 [링크](https://github.com/openai/gpt-3/blob/master/datasetstatistics/languagesby_cha

[부스트캠프 AI Tech 5기] HyperCLOVA
네이버의 Large Language Model 네이버의 방대한 데이터를 학습하여 만든 초 거대 AI 언어 모델 HyperCLOVA LLM LLM은 모델 사이즈를 키우고 대용량의 텍스트 데이터를 학습시켜 성능을 극대화 한 언어 모델 네이버 하이퍼클로바는 세계 3번째 공개되어 생태계를 만들어가는 중 영국, 미국, 중국, 이스라엘, 한국만 자체적으로 언어 모델을 구축 및 운영 중 (이외 나라는 오픈 소스를 사용) Scaling Laws 파라미터 숫자가 커질수록 성능이 증가한다는 법칙 모델의 크기가 커질수록 더 많은 역량을 가질 수 있음 GPT-3 vs ChatGPT  [챗봇] HyperCLOVA 캐릭터 챗봇 (Naver Deview 2021)
목차 캐릭터 챗봇 PAS 대화 생성 파이프라인 PAS 대화 검수 파이프라인 Case Study 마치며 서두 
작성일 : 2021.12.30 작성자 : 이정관 (jeonggwan.lee@gmail.com) 4줄 요약 데이터 수집은 Large-Scale LM(GPT-3)인 HyperClova를 통하여, prompt와 간단한 대화 예제를 통해 대화 데이터 증강(Data-Augmentation) 을 하였다. Retriever 모델은 기존의 RAG-FiD 형태 (Retriever, Reranker)를 따르되, OOD detector를 추가하여 응답 후보가 없는 경우를 검출 할 수 있게 하였다. Generator 모델에서는 HyperCLOVA (GPT-3)를 활용하되, LoRA 방식을 통해 저비용으로 파인튜닝을 할 수 있었으며, Unlikelihood training을 도입하여 부적절 발화 생성을 억제하였다. 피드백 과정(ML 파이프라인 개선)에서, Human-in-the-loop을 통해 생성된 데이터에서 부족한 부분을 보완하고, Fi