해당 글은 kakao tech의 발표 내용을 듣고 일부를 재구성하여 정리한 글입니다.
발표 자료
https://www.youtube.com/watch?v=4wwsyiLmVkA&list=PLwe9WEhzDhwG1H81qHrjc05sj75cGa1fi&index=14
왜 온디바이스를 쓰는가?
어떻게 쓰는가?

최신 스마트폰 기준 약 3B 모델까지 디바이스 내에서 안정적으로 구동 가능
-> 현재 kanana nano 오픈 소스 기준 2.1B 있음
온디바이스 AI가 잘할 수 있는 또 하나의 영역
= Function calling
위 문장에 대한 근거는 Meta에서 발표한 MobileLLM 논문 (1B 이하의 모델이 llama 7B 수준의 function calling 능력 보임)

Function calling을 어떻게 쓰는가?
- 서버 AI가 필요한 순간, 연결을 위한 Function calling

이런 Function calling이 가능하다면 사용자의 대화를 기반 서비스 가능

언제 서버 AI가 필요한가? = 어떤 도메인들이 있는가?
문제 상황
= 하나의 모델이 여러 형태의 output을 만들어 낼 수 있어야 한다

해결책
CoT를 활용 + 다른 도메인 모두 같은 생각 과정 거치기

이러한 해결책의 이유로는
1. 대화로부터 바로 제안을 만들어내는 과정은 어렵다 -> CoT (생각 과정)이 필요하다.
2. 도메인 별로 다른 생각 과정을 거친다면 작은 모델이 학습하기엔 어렵다 -> 같은 형식의 생각 과정으로 추론 시작
결론
모든 도메인이 공통된 생각 과정을 위해 같은 형식을 가지는 맥락을 추출하고 그 이후 쿼리 생성

문제 상황

해결책

이때, 실제 상황과 동일하게 이름 부여 및 길어지는 것 방지하기 위해 정규화 (ㅋㅋㅋㅋㅋㅋ -> ㅋㅋㅋ)
대형 모델로 만든 정답으로부터 학습 데이터 구축

여기서 핵심은 host가 누구냐에 따라 모델 output이 달라지게 된다는 점

-> 같은 대화 데이터에서 호스트 정보만 바꿔가면서 모델 응답 생성
-> 학습 데이터 증강 및 호스트
맥락 추출 능력의 평가 지표 F4 (llm as a judge 활용)

어떤 모델?
-> kanana nano 를 베이스로 활용
어떤 학습 데이터?

양자화 적용
모델 토큰 제거
Early Stop
대형 모델과 온비다이스 모델 성능 비교



출력 예시


궁금한 점
- 도메인 판단 -> 맥락 추출 -> Tool calling 실행 결정 등의 프로세스인데, 결과의 출력 예시를 보면 domain 없음인데 context까지 출력이 다 나왔는지?
- 모델의 입력의 범위는 어떻게 설계 되었는지?