이번 LangCon 의 주제는 '생성 모델 튜닝(LLM)' 으로,
학계 및 업계의 다양한 시각과 시도에 대해 전해 들을 수 있었던 시간이었습니다.
(개인적으로 Langcon2020 에서 발표한 후, 첫 랭콘 참석이었습니다 😊)
발표내용을 최대한 받아 적었으며, 중간중간 사진도 찍었으나
공개되지 않은 발표자료의 경우 발표자의 의사를 존중하여 사진을 첨부하지 않았습니다.
고석현 (Sionic AI Inc Chief Executive Officer)
키노트답게 LLM에 대한 Wrap-up 이 훌륭했던 세션이었습니다.
왜 튜닝?
생성 모델 튜닝의 주요 사건
생성 모델 튜닝의 방식
검색 증강 생성 기법 (RAG)
LLM 이 잘 할 수 있는 일 : 추론
남은 문제점들
(a.k.a. 기브 미 쪼꼬렛: 한국어 오픈소스 LLM 주세요 🍫)
신정규 (Lablup Inc. Chief Executive Officer)
LLM 을 개발하기 위한 컴퓨팅 자원 위주의 발표였습니다.
최근 LLM 을 넣어서 논리를 처리할 수 있게 됨
스케일 전쟁
스케일은 너무나 빨리 커지고 있다
사전 훈련 모델 / 파운데이션 모델 (Pre-trained Model == Foundation Model)
파인 튜닝
모델에 들어가는 자원은 5년간 만 배가 늘음.
AI 연산 자원 소개 (1세대~ 4세대) 및 전력 소모량 소개/비교
AI + 딥러닝 : 오픈소스 문화 기반 분야
2023년 3월 이후
토크나이저
1세대 : 형태소 기반, 서브워드...
2세대 : 형태소 없는 통계 기반
결론
박우명 (Sionic AI Inc, CDO / Head of Research)
LLM 활용 1타 강사 우명님...!
개인적으로 작년부터 LLM 붐이 일었는데 트렌드 팔로업을 못해서 랭콘에 귀동냥을 하러 온 지라
이 발표만으로 LLM에 대해 많이 알 수 있고 트렌드를 팔로업할 수 있었습니다!
Prompt : LLM 의 가장 큰 특징 (=In-Context Learning. Fine-Tuning 이 없어도 됨)
추론 : 미리 알려진 사실을 근거로 새로운 판단 또는 결론을 이끌어 냄
1 : 여러 번 풀어본 후 생성 결과 조합
• Self-consistency:동일 Prompt로 다양한 sampling방법을 통해 여러 개의 답을 생성한 후 다수결로 최종 답을 선택
2 : Coding 능력 활용하기
Chain of Code(CoC):추론 과정에 Code를 생성하고, Python code interpreter 와 LLM interpreter 양쪽 능력을 모두 활용할 수 있는 방법
• 평균적인 사람보다 잘하며 알고리즘 문제는 사람의 최고 점수보다 더 높음
3 : 정답과 오답을 동시에 참고하기
4 : 단계별로 기록하며 풀기
5 : 풀이 방법을 정한 후 실제 문제 풀기
추론 능력은 AI기술이 “Intelligence”를 갖기 위해 필요한 능력
• LLM은 긴 문맥과 맥락을 이해하고, 주어진 글을 토대로 관계를 파악하고 답변을 도출하는 등 사람들이 하는 지적 활동을 비슷하게 수행
• 최근의 연구 경향은 사람이 문제를 해결하는 방식을 흉내내는 방향에 주로 집중하고 있음
• 점차 LLM에 대한 의존도가 높아지면서 Cost및 Latency가 증가
-> 비용 효율적이며 실용적인 방법론 필요
추론 능력이 뛰어나면 주어진 기준에 의해 판단을 하고 결론을 내리는 것도 가능할 수 있음
• 다양한 항목에서 자동으로 판단하고 평가하려는 시도가 활발히 진행 중
• 위험성 판단
• 사실 관계 판단
• 추론 과정에서 논리적인 오류 탐지 및 답변 교정
일반적으로 LLM은 자신의 능력을 과신하는 경향이 존재
• 간단한 평가의 경우 의미 있는 수준으로 동작하는 것으로 보임
• 반면 높은 수준의 사고력이 요구되는 평가의 경우 아직 어려움이 존재
• Finetuning을 통해 평가를 위한 전용 모델을 만드는 시도는 의미가 있음
Prompt의 구성
• Instruction+Demonstrations
• 간단한 지시문과 몇 개의 예제만으로 간단히 AI모델 제작 가능
• 최적의 Prompt작성의 어려움
• Task에 적합한 Instruction은 무엇이며 어떻게 작성해야 하는가?
• 예제로는 어떤 데이터를 얼마나 넣어야 하는가?
• 예제로 사용할 데이터가 없으면?
Prompt는 사람이 LLM과 소통할 수 있는 수단
• 장점
• 누구나 자신이 원하는 AI모델을 손쉽고 빠르게 제작할 수 있음
• 단점
• 제어할 수 있는 범위가 제한적
• 입력할 수 있는 데이터나 정보의 양에 한계가 있음
• 추론 비용 및 시간이 많이 소요
• 활용 방안
• 현재의 LLM기술로 어떤 문제를 할 수 있는지 탐색하고 발굴하는 수단
• 내가 풀고 싶은 문제가 현재의 LLM기술로 해결 가능한지 빠르게 검증하는 수단
• 내가 만들고자 하는 AI서비스의 PoC혹은 데모 버전을 빠르게 제작하는 수단
...
'데이터 담당'으로 살아남는다는 것은 어떤 의미일까요?
조원익 (서울대학교)
개인적으로 언제나 흥미로운 주제에 대한 연구를 하시고, 연구를 즐기시는 모습이 부럽고 멋진 박사님이십니다!
원익박사님 발표 보러 랭콘 온 건 안비밀.... 😆
LLM 시대의 데이터 공개 양상
마치며..
• 데이터 작업의 본질은 데이터의 이해에 있다 (tool에 넣을 재료도잘다듬어야 하고,실제로 무언가 가치를 창출하기를 원한다면 이해해야한다)
• Domain전문가,데이터 담당,모델러의 브릿징은 무슨 모델을쓰든(쓰지않아도)중요하다
• 데이터 담당은 datain-out/modeling모두 고려해야 하는 기술'기획자'이다
• 한국어 특화로 무언가를 해야 한다면,model,domain을 모두 잘 보고최대한 있는 것을 leverage하자
-그리고 한국어 특화가 되는 부분에 집중하자
명함, 신용장, 영수증 등 이미지로 된 구조화 문서에서 정보를 추출하는데, OCR을 통하여 문맥 정보뿐만 아니라 단어의 위치 정보까지 결합하여 활용하는 multi-modal 접근 방법에 대해 소개
송치성 (BHSN.AI AI 엔지니어)
다차원적 데이터 context 를 다룰 때!
Document Understanding
NLP는 linear 한 경우가 많으나
문서의 경우 사람이 보기에 편하게 구조화되어 있고, 테이블 구조 등이 포함되어 있음.
Document IE : 주변 context 정보를 활용하여 해당 시퀀스가 무엇인지 추론
(Sequence Labeling / Span Extraction)
Semi-structed Document IE
OCR 해서 처리하지만 현실적인 장벽 존재 (영수증, 명함, invoice...)
초기 입력을 하나의 시퀀스로 가정하여 처리할 경우 문제점...
Benchmark
(FUNSD, CORD, SROIE)
LayoutLM
SPADE : SPAtial Dependency parser
복잡한 문서로부처 계층적 정보를 추출할 수 있는 e2e 방식 아키텍쳐
BROS : BERT Relying on Spatiality
FormNetV2
(부제: Llama-2-Ko, Yi-Ko, Solar-Ko와 함께하는 한국어 언어모델 만들기)
이준범 (https://github.com/Beomi)
그렇다고 한국어 위주로 학습하면 한국어 '만' 잘하게 된다 (영어를 까먹음...)
Gemma-EasyL 으로 TPU(GPU) 에서 Gemma 학습하기
https://github.com/Beomi/Gemma-EasyLM
Agent를 활용하여 개인 투자자들을 위한 쉽고 정확한 주식 종목 정보 제공 어플리케이션 개발 방법론
김성현 (토스 증권 Machine learning team, machine learning engineer)
발표 애티튜드 (딕션, 발성, 시각적으로 잘 정리된 예시, 스토리텔링) 아주 뛰어나셨습니다. 엄청 인상적이셨어요!!
어떻게 하면 수많은 금융 상품 정보들을 쉽고 빠르게 정리할 수 있을까?
-> AI 모델이 이 정보들을 잘 이해할 수 있어야 한다!
=> 현재 이해도가 가장 높은 모델 == LLM
raw data -> 데이터 내에서 애널리스트와 경영진의 질의응답 추출
=> 이 과정을 거쳐 QA pair 데이터셋을 만드심!
데이터셋 구축 이후 검증...
Reasoning 분석
Answer 분석
결론
이성진 (BHSN AI Engineer)
앞 발표자인 송치성님과 같은 BHSN 에서 근무하셔서 그런지
주요 발표 내용은 문서 즉 Long Context 데이터를 처리하기 위한 방법론에 대한 소개였으며
특히 Transformer 에서 Long Context (방대한 양의 문서와 같은 input 데이터) 를 처리하기 위한 튜닝 방법론 위주로 소개해 주셨습니다.
Long Context Summarization & QA
Transformer 에서 Long Context (방대한 양의 문서와 같은 input 데이터) 를 처리하기 위한 튜닝 방법론 소개
결론 : Self-Attention 기반 Transformer 구조의 한계는 명확함.
Backgrounds
Self-Attention Mechanism
Positional Encodings
김주현 (MetisX CPO, Co-founder)
박진형 ( Sigrid Jin) (Sionic AI Inc Software Engineer)
개인적으로 하드웨어(컴퓨팅 자원, 징비) 부분은 제가 잘 몰라서 거의 이해하지 못했습니다.. 😂
차원의 저주
LLM을 활용해서 구성하는 앱으로 필수적인 기능들을 모아 만드는 내 시스템.
개인의 관심사로 꾸며보는 나만의 검색시스템 만들기
김현 (LG AI Research)
LLM 및 오픈소스들만을 이용해 RAG 를 만드는 방법을 소개해 주셨습니다.
최대한 로컬환경(노트북)과 무료 서비스들을 활용
GPTs : 챗GPT 유저가 직접 챗GPT를 특정 목적에 맞게 커스터마이징해서 만든 챗봇
openai에서 좋은 예제를 제공하고 있습니다.
https://github.com/openai/chatgpt-retrieval-plugin
• Openai - 임베딩 생성
• Pinecone - 임베딩 관리, 탐색
• ngrok - public 주소
• google - web search
데이터를 수집하고 허깅페이스를 활용하여 상용 수준 성능의 기계번역 모델을 개발하고 커뮤니티에 기여한 내용을 공유하고자 합니다.
김기현 (LG유플러스)
개인적으로 기계번역 연구를 하던 저에게 너무나도 반가운 내용이었습니다 🥹
이제 기계번역기를 만드는 작업이 너무나도 쉬워졌어요. 기계번역 개발자 및 연구자에게 이것은 기회일까요 위기일까요...?
NMT vs LLM
번역 활용 사례 (여전히 번역의 수요는 많다!)
코퍼스 수집
오픈소스 라이브러리
모델 학습
성능 평가
논문 자동 번역기 개발
Q&A
오성우 (KB국민은행 AI 엔지니어)
저작권 문제는 사실 저희 회사에서 아직 다루지 않은 문제이고,
저희 회사는 의료(생체정보) 도메인을 다루기 때문에 이미 법적 제재가 많이 걸려 있기도 합니다 😂
그럼에도 발표에서는 학습에 쓰인 데이터를 역으로 LLM으로 추출해내는 등의 이슈를 다루었기 때문에
특히 LLM의 보안 / 악의적 사용(공격) 에 대해 연구하시는 분들께 도움이 되실 것 같습니다.
Agent 기반 프로덕트를 1년 여간 운영하며 얻은 배움과 노하우, Data Flywheel 구축을 향한 여정을 다룹니다.
허훈 ((현) Liner 테크니컬 리드)
Liner 에서 실제로 Agent 기반 프로덕트를 운영하며 얻은 노하우를 아낌없이 전수해 주셨습니다.
저희 회사에도 적용하고 싶은 내용 (특히 결론) 이 많아서 현재 제가 진행중인 프로젝트에 적용하려 합니다!
Prompting
Agent Ops + Data Flywheel
RAG
결론
정다운 (스캐터랩 ML 리서처)
발표자료가 깔끔하고 내용이 잘 적혀있어서 발표 당시 구두로 언급한 부분만 정리했습니다.
개인적으로 기계번역 연구/업무를 주로 해 왔고, 아직까지도 가장 사랑하는 태스크라
일본어 즉 한국어 이외의 외국어를 다루신 점이 너무나도 흥미로웠습니다.
다운님의 일본어에 대한 높은 이해도와 발표 애티튜드 (쉬운 예시, 정확한 딕션과 매끄러운 설명) 또한 인상적이었습니다.
일본어의 특징 설명
=> 이러한 문제들 때문에 일본어 자연어처리의 경우 문장의 의미를 정확히 해석하려는 연구가 활발함!
일본어 데이터의 특징
LLM 시대의 일본어 NLP
현실
평가
출시 후의 빠른 성능 개선 지향
허석원 (Sionic AI Inc Business Development Manager)
제조업 클라이언트 위주로 프로젝트를 진행한 경험을 소개해 주셨는데요,
무엇보다도 과거 프로젝트에서 아쉬웠던 점을 현재 기술을 접목하여 해결한다면? 이라는 발상과 함께
해결 방법을 함께 제시하고 또 실제로 적용해 보신 점이 존경스러웠습니다!
공장 시설, 설비에 대한 DB화 및 검색 시스템 구축
장애 발생 시 원인 파악 및 과거 사례 검색 목적.
문제점 : 문서 양식이 통일되어 있지 않음
해결 : IBM Watson R&R (Retrieve and Rank) 를 활용해 서비스 구축
이 때의 문제를 RAG 으로 새로 구축해본다면? 과 같이 과거의 문제 사례에 현재 최신 기술을 적용하는 방안을 생각해보신 점이 매우 인상적!
바이크 디자이너들의 스케치 아카이브 시스템 구축
이 프로젝트는 당시 POC 까지만 진행하셨으나,
지금의 이미지 생성 모델을 활용할 수 있다면? 이라는 상상에서 출발해 직접 미드저니 이용해 결과물을 뽑아 보셨음.
과거의 문제점을 파악하는 것에 그치지 않고 기술이 발전한 지금이라면 어떻게 해결할지 다시 한번 고민해 보셨다는 점이 너무나도 인상적이셨다!!
발표자료 미공개로 인한 생략
LLM 이라는 최신 트렌드에 대해 다각도로 발표자분들의 경험을 살려 노하우를 공유해 주신 점,
컨퍼런스 후반부에서는 Researcer 또는 Engineer 분들 이외에도
Business Development Manager, 데이터 사이언티스트 분들의 발표도 접한 덕분에
다양한 시각을 간접적으로 경험할 수 있었다는 점이 매우 유익했습니다.
특히, 현재 저희 회사(팀) 에 적용할 수 있는 연구 방법론 및 문제 해결 노하우를 많이 얻을 수 있어서
앞으로 더 나은 업무 성과를 내는 데에, 또 회사 전체의 생산성을 향상시키는 데에 도움이 될 것 같습니다.
귀한 연휴에 시간 내어주시고 행사를 준비해 주신 발표자분들과 스탭분들께 감사드립니다.
내년에는 참가자가 아니라 발표자로서 랭콘에 참여하고 싶습니다! 🥰
굿입니다
요약도 잘되있고 , 외부 사용자가 파악하기 쉽게 잘 정리해주셨군요~~