LG그룹에서 진행하는 소프트웨어 개발자 컨퍼런스 중 일부 내용 정리
LG AI 연구원 배경훈 원장
AI는 사실에 기반으로 진단하는 영역으로 뻗어나가야한다. 신뢰성 높은 데이터로 적은 파라미터로도 좋은 성능을 낼수있는 엑사원을 만들겠다. 나아가 중장기로는 미래 예측 및 자율 실행 가능한 AI Agent로의 Path를 계획할 것이다.
2012년 이후로 딥러닝이 산업에 부상하였지만, 다양한 문제 (컴퓨테이션 케파의 부족과 비용)으로 인해 비즈니스적인 회의가 존재했다. 하지만 생성형AI인 ChatGPT의 등장으로 생성형 AI의 비즈니스적인 가능성을 다시 볼 수 있었다.
<생성형AI 시장이 과열되는 이유는 뭘까?>
나스닥 시총 상위 테크기업 모두 LLM 개발/서비스에 참여하면서, 국내의 기업들도 자체 LLM 개발에 참여하고 있다
생성형 AI에서 뒤쳐지는 것이 곧 시장에서 뒤쳐지는 것이라고 판단하여 많은 기업들이 개발에 뛰어들고있다. 그렇다면 이러한 회사들이 목표로하는 문제해결은 뭘까??
그에대해서는 아직 많은 의문들이 존재한다.
OpenAI는 Genereal Intelligence를 표방한다. 하지만 이를 이룩하기 위해서는 아직도 많은 시간이 걸릴 것이라고 생각한다. 이러한 한계를 인식한 LG AI 연구원은 Vertical한 지식분야에 대한 Expert Model을 제작하는 것을 목적으로 하고있다.
<데이터 부족과 가공에 대한 기회비용 문제가 여전히 존재한다.>
딥러닝 자체의 능력은 점점 뛰어나지지만, 특정한 테스크에 맞게 데이터를 생성, 가공하는데에는 많은 시간과 비용이 필요하다. LG AI연구원에서 엑사원을 충분히 만들 수 있다면, LG AI연구원은 데이터 생성으로써의 비즈니스 가치를 꾀할 수도 있다.
<Hallucination과 Bias>
현재 많은 생성형 AI가 이러한 문제를 가지고 있다. LG AI는 다량의 데이터셋을 확보하는데에 많은 노력을 기울였지만, 편향문제를 해결하기 위해서 검색부분에서 기존의 생성형 검색 시스템과 다른 부분을 표방한다.
Exaone은 전문분야에 대한 코퍼스를 따로 클러스터를 형성하고, 이에 대해서 Reasonable하게 지식을 추론한다. 따라서 문서 내에서 질문을 할때, 참조한 부분 또한 제공할 수 있다.
LG전자 이대연 책임연구원
대화형 QA : 대화의 문맥을 적절히 이해하여 적절하게 응답하는 시스템
→ Generative AI는 질의응답 벤치마크에서는 그다지 높은 성적을 보여주지 못한다.
cQR에서 중요한 것은 Coreference Resolution 이 중요하다.
생략어의 사용비율이 높기 때문에 한국어는 Anaphora Resolve 하기가 쉽지 않다.
→ GPT를 이용하면 Zero shot 해결이 가능하긴 하다.
cQR의 경우에는 Closed Domain이 아니라 Open Domain 영역이기 때문에, 모델의 크기가 대규모여야한다. 이러한 도메인의 차이 때문에 벤치마크 성적은 실제 비즈니스 적용에 괴리가 발생하게 된다. 따라서 도메인 타게팅을 Open Domain으로 해야한다.
따라서 Hybrid Search를 이용하여 Term Based Search와 Semantic Search의 장점을 결합한다. 실제로 BM25(Term기반)나 Ada(Semantic기반) 보다 조금 더 높은 결과를 보여줬다. 고무적인 부분이라 하자면 질문들에 대한 유사질의에서 압도적인 정확도를 보여주었다.
Hybrid | Term Search (BM25) | Semantic (Ada) | |
---|---|---|---|
R@1 | 99.5 | 96.91 | 99.3 |
R@2 | 99.6 | 99.3 | 99.5 |
R@1 (Similar) | 63.64 | 35.35 | 38.78 |
R@2 (Similar) | 71.72 | 42.42 | 51.02 |
UP가전 : Upgradable 가전으로 사용자 맞춤형 및 업데이트 가능 가전
기존의 SW는 One Binary SW인 문제점을 가지고 있다. 이러한 문제점이 야기하는 것은 몇가지가 있어 UP가전 생성을 위해서는 SW 구조 수정이 필요하다.
따라서 RT-OS 탑재와 HW Topology를 변경하고 전용 칩을 적용하였다.
코드 편찬을 가능하게 하여, 코드 간편화 (코드 600줄가량에서 100줄가량으로 감소, 7레이어에서 2레이어 코드로 변화)