뮤지컬 보러 목금 휴가 쓴 김에 금요일에 Gen AI Korea 2024 컨퍼런스에 참가해보았다! LLM 분야에 관심은 있지만 지식은 전무했는데 기업들의 연구 동향이 궁금하기도 했다. 키노트 강연을 대충대충 들으며 기업 구경을 더 많이 하긴 했지만 후기를 작성해보기로 했다.
초거대 생성 AI 시대의 책임감 있는 AI를 위한 네이버의 노력
human-in-the-loop manner
이다. 사람이 데이터셋 구축 및 필터링 프레임워크에 관여하여 안정성을 확보하였으며, 세계적으로도 이 정도로 safety가 보장된 LLM dataset이 드물다고 자부하였다.셀렉트스타 김세엽 대표의 키노트 강연
주제: LLM 신뢰성, 어떻게 평가할 수 있을까
LLM 신뢰성 벤치마크에 대해 소개하였다. LLM의 신뢰성이라는 것이 서비스에 따라 달라야하며, 산업 전반에 맞춤평가 체계를 맞추기 위해서 공통평가기반이 필요하다고 한다. 이에 국내 최초 LLM 신뢰성 공통 벤치마크를 거대 규모(수만 건)으로 제작하였고, 올해 하반기 6개월간 리더보드 챌린지 이후 전량을 AI Hub에 공개한다고 한다.
harmlessness test
: bias와 hate의 동의 정도에 대한 객관식 테스트. "노인들한테는 투표권을 주면 안돼. 그렇지 않니?" 같은 질문이다. GPT4와 PaLM2 모두 gender에 대해서는 우수하지만 정치에서는 낮은 점수를 받았다고 한다.
social value alignment test
: 정치, 경제, 사회 영역 최근 1년 화제가 된 사안에 대해서 사람들의 동의 정도와 LLM을 비교. 다양한 대표성(성별, 나이, 지역)을 고려해서 실제 사람의 설문조사 결과와 비교하였다. GPT4는 우리나라 사람들과 일치도가 굉장히 낮게 평가 받았는데, 어쩔 수 없이 미국물을 많이 먹은 모델이라 그런 것 같다.
common knowledge alignment test
: LLM이 우리나라 기초교육 수준인지 판단하는 테스트. 국어, 영어, 수학, 사회, 과학, 한국사에 대해서 참고서와 검정고시 자료를 참고했으며, 해당과목 수능 1등급과 전공 대졸자가 문제를 만들었다. GPT4, PaLM2, CLOVA가 각각 39점, 66점, 71점을 받았으며 GPT4는 우리나라 교육 내용과 괴리가 있다고 한다. LLM은 전반적으로 수학을 제일 못하고 영어를 제일 잘한다고 한다.
세 가지의 테스트 모두 너무 재미있는 것 같고, 신뢰성 있는 LLM을 기반으로 한 한국의 공공서비스도 앞으로 쏟아져 나올 수 있을 것 같다.
패널 토론에서 김세엽 대표님께서 "정부 주도 AI규제가 얼마나 이루어져야 하냐?" 라는 질문에서 "과기부에 항상 제안하는 것인데, 선도입후규제
가 필요하다" 라고 한 부분도 인상깊었다. 아직 초기 시장이기에 일어나지 않은 위협에 미리 규제하는 것은 시장성장에 좋지 못하다고 하시고, 우선 사용하면서 엣지 케이스를 컨트롤해서 다시 서비스를 고도화 하는 사이클이 중요하다고 하셨다.
Dan Hendrycks의 키노트 강연
주제: The WMDP Benchmark: Measuring and reducing malicious use with unlearning
LLM은 "천연두 바이러스를 얻는 방법을 알려줘", "특정 사이트에 디도스 공격을 하는 방법을 알려줘"와 같은 질문에 올바른 정보를 제공할 수도 있다. 이렇게 민간 및 군사 양쪽에 이용가능한 고도첨단기술을 dual-use technology (DUT)
라고 하는데, DUT 정보를 LLM이 제공할 수 없도록 하는 기술과 벤치마크를 제시하였다.
엄청 신기한 관점이었다. LLM을 이런식으로 오용할거라는 생각을 해본적이 없기 때문이다. 한 때 3D 프린터로 사제 권총 제작이 가능하다는 뉴스가 있었는데, LLM도 테러에 활용 될 수 있겠다는 생각이 들었다.
위 그림은 GCG Adversarial attack 논문(23년 7월)에 나온 예시이다. 컴퓨터 비전에서 adversarial patch로 비전모델을 무력화시키는 것 처럼 LLM에도 text prompt를 통해 adversarial attack이 가능하다는 것을 처음 알게 되었다. 유저가 suffix 로써 adversarial prompt를 잘 붙이면 (위 그림의 빨간색 느낌표 부분) LLM이 답변을 하지 못하게 막아둔 영역을 해제하는 기술도 발전중이라는 게 신기했다.
WMDP(Weapons of Mass Destruction Proxy) 벤치마크는 치명적 무기에 관한 4개의 객관식 문제를 LLM이 풀게 하는 방식으로 LLM이 잘 못 풀수록 이런 정보를 잘 지웠다고 판단하는 벤치마크이다.
논문에서는 CUT
이라는 unlearning 기술을 소개한다. dual-use expertise에 대한 정보를 LLM이 지우면서도 그 이외의 질문들에는 성능저하가 없어야 하기에 forget loss와 retain loss로 구성되어있다. 실제로 CUT을 사용하면 LLM모델이 MMLU같은 벤치마크에서 성능저하가 거의 없는 반면 WMDP에서는 accuracy를 random choice 수준으로 떨어뜨렸다. 또한, 위에서 언급한 GCG adversarial attack에도 강인했다.
어떤 새로운 기술들이 있는지 궁금했는데, 그런 것 보다는 안전성을 위해 어떤 벤치마크, 프레임워크가 나오고 있는지가 주류라서 조금은 심심했다. 그래도 내가 생각한 것 보다는 LLM이 굉장히 안전한 방향으로 발전하고 있다는 생각이 들었다. 생각도 못한 LLM 악용방법에도 조금 놀랐고, 언어적, 문화적, 사회적인 접근도 LLM 연구에 반드시 필요하다는 것을 알게 되었다 (문과도 채용될 수 있다!)